작성일: 2026-05-06 목적: verification_point_extractor 추가 및 질문 생성 구조 개편 이후, AI 개발/데이터 직무 질문 생성 품질이 초기 베이스라인 대비 얼마나 향상되었는지 정량·정성 기준으로 평가하기 위함 데이터 범위: 2026-05-06 생성 세션 중  created_by=9, target_job=AI_DEV_DATA 대상 최종 10개 세션, 총 50개 문항비교 기준: 2026-04-30 초기 AI 10명 베이스라인 문서 평가 기준: 질문 품질 5항목 + 평가가이드 품질 5항목 (각 1~5점), 각 영역 25점 만점 / 2배 환산, 최종 점수 100점 만점 기준 집계


1. 전체 현황 요약 (핵심 KPI)

KPI 비고
평가 세션 수 10개 AI 개발/데이터 세션
평가 문항 수 50개 세션당 5문항
질문 품질 평균 23.1 / 25 매우 우수 직전 수준
평가가이드 품질 평균 22.8 / 25 매우 우수 직전 수준
최종 품질 점수 91.8 / 100 매우 우수권
초기 대비 총점 변화 +13.2점 78.6 → 91.8
질문 품질 향상폭 +3.5 / 25 19.6 → 23.1
평가가이드 향상폭 +3.1 / 25 19.7 → 22.8
목표 대비 초과 달성 +1.8점 목표 90.0점 대비
문서 리스크 반영도 높음 공백기/성과/협업 검증 강화

요약 해석:


2. 평가 방식 및 비교 기준

2-1. 평가 방식

2-2. 질문 품질 평가 항목 (5개)