작성일: 2026-05-01 목적: 초기 설계 LangGraph의 AI 개발/데이터 직무 질문 생성 품질을 최근 개편된 루브릭 기준으로 재평가하여, 추후 구조 개선 실험과 비교할 베이스라인으로 사용하기 위함 데이터 범위: 2026-04-30 생성 세션 중 created_by=9, target_job=AI_DEV_DATA 대상 10개 세션
각 영역 25점 만점 / 2배 환산, 최종 점수는 100점 만점 기준으로 집계
| KPI | 값 | 비고 |
|---|---|---|
| 평가 세션 수 | 10개 | AI 개발/데이터 세션 |
| 평가 문항 수 | 50개 | 세션당 5문항 |
| 질문 품질 평균 | 19.6 / 25 | 좋음 직전 수준 |
| 평가가이드 품질 평균 | 19.7 / 25 | 좋음 직전 수준 |
| 최종 품질 점수(100점 환산) | 78.6 / 100 | 실무 활용 가능 수준 |
| 품질 해석 | 보통~우수 상단 | 초기치 치고는 양호 |
| 주요 강점 | 직무 관련성, 면접 사용성 | 실무형 질문 다수 |
| 주요 한계 | 문서 근거성, 검증력, 구체성 | 질문이 다소 일반적 |
| 리스크 검증 반영도 | 낮음~중간 | 공백기·성과 기여도·직무전환 검증 약함 |
| 추후 비교 포인트 | 검증포인트 반영도 | 구조 개선 후 비교 핵심 |
요약 해석:
| 점수 | 해석 |
|---|---|
| 1점 | 매우 부족함 |
| 2점 | 부족함 |
| 3점 | 보통 |
| 4점 | 좋음 |
| 5점 | 매우 좋음 |