작성일: 2026-05-07 목적: interview_graph_JY의 Analyzer 기반 문서 분석, selector_lite 선별, Predictor/Driller/Reviewer/Scorer 품질 검증 구조 적용 이후 면접 질문 생성 품질이 초기 JY 베이스라인 대비 얼마나 개선되었는지 정량·정성 기준으로 평가하기 위함 데이터 범위: backend/ai/interview_graph_JY 현재 구현, 초기 품질/성능 보고서, 1차·2차 개선 실험일지 기준 기준: 2026-05-06 JY LangGraph 초기 품질 분석 보고서 및 초기 성능 보고서 평가 기준: 질문 품질 5항목 + 평가가이드/검증 구조 품질 5항목, 실행 안정성·토큰 효율·재시도 수렴 구조를 함께 반영 주의: 본 문서는 생성 원문 50문항 수동 채점이 아니라, 현재 JY 파이프라인 구조와 단일 실행 실험 수치에 기반한 최종 품질 분석이다.


1. 전체 현황 요약 (핵심 KPI)

KPI 비고
평가 대상 interview_graph_JY JY 전용 LangGraph 파이프라인
기본 후보 질문 수 8개 jy_questioner 생성 기준
최종 선택 질문 수 최대 5개 selector_lite 및 최종 selector 기준
최종 실행 구조 10단계 build_state → analyzer → questioner → selector_lite → predictor → driller → reviewer → scorer → selector → final_formatter
품질 검증 노드 Reviewer + Scorer LLM 검토 + 규칙 기반 점수화
재시도 구조 질문/꼬리질문 분리 재시도 retry_questioner, retry_driller
저품질 임계값 80점 미만 LOW_SCORE_THRESHOLD = 80
초기 대비 총 토큰 변화 -34,536 tokens 100,166 → 65,630
초기 대비 총 토큰 개선율 -34.5% 1차·2차 개선 누적
초기 대비 전체 LLM 시간 변화 +36.33s 309.29s → 345.62s
1차 대비 최종 LLM 시간 변화 -78.63s 424.25s → 345.62s
실행 안정성 100% 유지 관측 실험 기준 에러 0회
최종 품질 판단 반영 가능 구조적 품질 통제와 토큰 효율 개선 확인

요약 해석:


2. 평가 방식 및 비교 기준

2-1. 평가 방식

평가 축 확인 방식
질문 품질 Questioner 프롬프트, 스키마 제약, 문서 근거 필드, 리스크 태그 확인
평가가이드 품질 evaluation_guide, Reviewer 판정, Scorer 점수화 기준 확인
실행 품질 초기/1차/2차 실험의 LLM 호출 수, 토큰, latency, 성공률 비교

2-2. 질문 품질 평가 항목 (5개)