작성일: 2026-05-06 목적: verification_point_extractor 추가 및 질문 생성 구조 개편 이후, AI 개발/데이터 직무 질문 생성 품질이 초기 베이스라인 대비 얼마나 향상되었는지 정량·정성 기준으로 평가하기 위함 데이터 범위: 2026-05-06 생성 세션 중 created_by=9, target_job=AI_DEV_DATA 대상 최종 10개 세션, 총 50개 문항비교 기준: 2026-04-30 초기 AI 10명 베이스라인 문서 평가 기준: 질문 품질 5항목 + 평가가이드 품질 5항목 (각 1~5점), 각 영역 25점 만점 / 2배 환산, 최종 점수 100점 만점 기준 집계
| KPI | 값 | 비고 |
|---|---|---|
| 평가 세션 수 | 10개 | AI 개발/데이터 세션 |
| 평가 문항 수 | 50개 | 세션당 5문항 |
| 질문 품질 평균 | 23.1 / 25 | 매우 우수 직전 수준 |
| 평가가이드 품질 평균 | 22.8 / 25 | 매우 우수 직전 수준 |
| 최종 품질 점수 | 91.8 / 100 | 매우 우수권 |
| 초기 대비 총점 변화 | +13.2점 | 78.6 → 91.8 |
| 질문 품질 향상폭 | +3.5 / 25 | 19.6 → 23.1 |
| 평가가이드 향상폭 | +3.1 / 25 | 19.7 → 22.8 |
| 목표 대비 초과 달성 | +1.8점 | 목표 90.0점 대비 |
| 문서 리스크 반영도 | 높음 | 공백기/성과/협업 검증 강화 |
요약 해석: