LangGraph 최종 품질 분석 보고서

작성일: 2026-05-06 목적: verification_point_extractor 추가 및 질문 생성 구조 개편 이후, AI 개발/데이터 직무 질문 생성 품질이 초기 베이스라인 대비 얼마나 향상되었는지 정량·정성 기준으로 평가하기 위함 데이터 범위: 2026-05-06 생성 세션 중 created_by=9, target_job=AI_DEV_DATA 대상 최종 10개 세션, 총 50개 문항비교 기준: 2026-04-30 초기 AI 10명 베이스라인 문서 평가 기준: 질문 품질 5항목 + 평가가이드 품질 5항목 (각 1~5점), 각 영역 25점 만점 / 2배 환산, 최종 점수 100점 만점 기준 집계

1. 전체 현황 요약 (핵심 KPI)

KPI	값	비고
평가 세션 수	10개	AI 개발/데이터 세션
평가 문항 수	50개	세션당 5문항
질문 품질 평균	23.1 / 25	매우 우수 직전 수준
평가가이드 품질 평균	22.8 / 25	매우 우수 직전 수준
최종 품질 점수	91.8 / 100	매우 우수권
초기 대비 총점 변화	+13.2점	78.6 → 91.8
질문 품질 향상폭	+3.5 / 25	19.6 → 23.1
평가가이드 향상폭	+3.1 / 25	19.7 → 22.8
목표 대비 초과 달성	+1.8점	목표 90.0점 대비
문서 리스크 반영도	높음	공백기/성과/협업 검증 강화

요약 해석:

오늘 최종 품질은 91.8점으로, 초기 베이스라인 78.6점 대비 13.2점 상승했다.
목표치였던 90점 이상을 1.8점 초과 달성했다.
단순히 질문이 더 자연스러워진 수준이 아니라, 입사지원서류 속 리스크를 실제 면접 질문으로 전환하는 능력이 뚜렷하게 향상되었다.
특히 문서 근거성, 검증력, 구체성, 평가가이드 판별력 항목에서 개선 폭이 컸다.

2. 평가 방식 및 비교 기준

2-1. 평가 방식

각 항목은 1점 ~ 5점으로 평가
질문 품질과 평가가이드 품질은 분리 평가
각 영역은 5개 항목, 영역별 25점 만점
각 영역 점수는 2배 환산하여 50점 만점
최종 점수는 두 영역 환산 점수를 합산하여 100점 만점으로 계산

2-2. 질문 품질 평가 항목 (5개)

직무 관련성
문서 근거성