작성일: 2026-05-07 목적:
interview_graph_JY의 Analyzer 기반 문서 분석,selector_lite선별, Predictor/Driller/Reviewer/Scorer 품질 검증 구조 적용 이후 면접 질문 생성 품질이 초기 JY 베이스라인 대비 얼마나 개선되었는지 정량·정성 기준으로 평가하기 위함 데이터 범위:backend/ai/interview_graph_JY현재 구현, 초기 품질/성능 보고서, 1차·2차 개선 실험일지 기준 기준: 2026-05-06 JY LangGraph 초기 품질 분석 보고서 및 초기 성능 보고서 평가 기준: 질문 품질 5항목 + 평가가이드/검증 구조 품질 5항목, 실행 안정성·토큰 효율·재시도 수렴 구조를 함께 반영 주의: 본 문서는 생성 원문 50문항 수동 채점이 아니라, 현재 JY 파이프라인 구조와 단일 실행 실험 수치에 기반한 최종 품질 분석이다.
| KPI | 값 | 비고 |
|---|---|---|
| 평가 대상 | interview_graph_JY |
JY 전용 LangGraph 파이프라인 |
| 기본 후보 질문 수 | 8개 | jy_questioner 생성 기준 |
| 최종 선택 질문 수 | 최대 5개 | selector_lite 및 최종 selector 기준 |
| 최종 실행 구조 | 10단계 | build_state → analyzer → questioner → selector_lite → predictor → driller → reviewer → scorer → selector → final_formatter |
| 품질 검증 노드 | Reviewer + Scorer | LLM 검토 + 규칙 기반 점수화 |
| 재시도 구조 | 질문/꼬리질문 분리 재시도 | retry_questioner, retry_driller |
| 저품질 임계값 | 80점 미만 | LOW_SCORE_THRESHOLD = 80 |
| 초기 대비 총 토큰 변화 | -34,536 tokens | 100,166 → 65,630 |
| 초기 대비 총 토큰 개선율 | -34.5% | 1차·2차 개선 누적 |
| 초기 대비 전체 LLM 시간 변화 | +36.33s | 309.29s → 345.62s |
| 1차 대비 최종 LLM 시간 변화 | -78.63s | 424.25s → 345.62s |
| 실행 안정성 | 100% 유지 | 관측 실험 기준 에러 0회 |
| 최종 품질 판단 | 반영 가능 | 구조적 품질 통제와 토큰 효율 개선 확인 |
요약 해석:
selector_lite 자체가 아니라, 품질 검증 전후의 처리 대상을 줄이고, Reviewer/Scorer 결과를 재시도와 최종 선별에 연결한 구조다.| 평가 축 | 확인 방식 |
|---|---|
| 질문 품질 | Questioner 프롬프트, 스키마 제약, 문서 근거 필드, 리스크 태그 확인 |
| 평가가이드 품질 | evaluation_guide, Reviewer 판정, Scorer 점수화 기준 확인 |
| 실행 품질 | 초기/1차/2차 실험의 LLM 호출 수, 토큰, latency, 성공률 비교 |