LangGraph 초기 품질 분석 보고서 | Notion

작성일: 2026-05-01 목적: 초기 설계 LangGraph의 AI 개발/데이터 직무 질문 생성 품질을 최근 개편된 루브릭 기준으로 재평가하여, 추후 구조 개선 실험과 비교할 베이스라인으로 사용하기 위함 데이터 범위: 2026-04-30 생성 세션 중 created_by=9, target_job=AI_DEV_DATA 대상 10개 세션
각 영역 25점 만점 / 2배 환산, 최종 점수는 100점 만점 기준으로 집계

1. 전체 현황 요약 (핵심 KPI)

KPI	값	비고
평가 세션 수	10개	AI 개발/데이터 세션
평가 문항 수	50개	세션당 5문항
질문 품질 평균	19.6 / 25	좋음 직전 수준
평가가이드 품질 평균	19.7 / 25	좋음 직전 수준
최종 품질 점수(100점 환산)	78.6 / 100	실무 활용 가능 수준
품질 해석	보통~우수 상단	초기치 치고는 양호
주요 강점	직무 관련성, 면접 사용성	실무형 질문 다수
주요 한계	문서 근거성, 검증력, 구체성	질문이 다소 일반적
리스크 검증 반영도	낮음~중간	공백기·성과 기여도·직무전환 검증 약함
추후 비교 포인트	검증포인트 반영도	구조 개선 후 비교 핵심

요약 해석:

초기 품질은 전체적으로 실무적으로 충분히 쓸 수 있는 수준이다.
다만 “매우 날카로운 질문 세트”라기보다는, 무난하고 안전한 질문 세트에 가깝다.
특히 AI 개발/데이터 직무 지원자 문서에 포함된 공백기, 성과 수치의 기여도, 실무 투입 가능성, 협업 리스크 등을 직접적으로 검증하는 질문 비중은 아직 낮다.
따라서 이 초기 결과는 “질문 생성이 망한 상태”가 아니라, 좋은 질문은 생성되지만 문서 리스크를 구조적으로 파고들지는 못한 상태로 해석할 수 있다.

2. 평가 방식 및 루브릭

2-1. 평가 방식

각 항목은 1점 ~ 5점으로 평가
질문 품질과 평가가이드 품질은 분리 평가
각 영역은 5개 항목, 영역별 25점 만점
각 영역 점수는 2배 환산하여 50점 만점
최종 점수는 두 영역 환산 점수를 합산하여 100점 만점으로 계산

점수	해석
1점	매우 부족함
2점	부족함
3점	보통
4점	좋음
5점	매우 좋음

2-2. 질문 품질 평가 항목 (5개)

직무 관련성