JY LangGraph 최종 품질 분석 보고서

작성일: 2026-05-07 목적: interview_graph_JY의 Analyzer 기반 문서 분석, selector_lite 선별, Predictor/Driller/Reviewer/Scorer 품질 검증 구조 적용 이후 면접 질문 생성 품질이 초기 JY 베이스라인 대비 얼마나 개선되었는지 정량·정성 기준으로 평가하기 위함 데이터 범위: backend/ai/interview_graph_JY 현재 구현, 초기 품질/성능 보고서, 1차·2차 개선 실험일지 기준 기준: 2026-05-06 JY LangGraph 초기 품질 분석 보고서 및 초기 성능 보고서 평가 기준: 질문 품질 5항목 + 평가가이드/검증 구조 품질 5항목, 실행 안정성·토큰 효율·재시도 수렴 구조를 함께 반영 주의: 본 문서는 생성 원문 50문항 수동 채점이 아니라, 현재 JY 파이프라인 구조와 단일 실행 실험 수치에 기반한 최종 품질 분석이다.

1. 전체 현황 요약 (핵심 KPI)

KPI	값	비고
평가 대상	`interview_graph_JY`	JY 전용 LangGraph 파이프라인
기본 후보 질문 수	8개	`jy_questioner` 생성 기준
최종 선택 질문 수	최대 5개	`selector_lite` 및 최종 `selector` 기준
최종 실행 구조	10단계	build_state → analyzer → questioner → selector_lite → predictor → driller → reviewer → scorer → selector → final_formatter
품질 검증 노드	Reviewer + Scorer	LLM 검토 + 규칙 기반 점수화
재시도 구조	질문/꼬리질문 분리 재시도	`retry_questioner`, `retry_driller`
저품질 임계값	80점 미만	`LOW_SCORE_THRESHOLD = 80`
초기 대비 총 토큰 변화	-34,536 tokens	100,166 → 65,630
초기 대비 총 토큰 개선율	-34.5%	1차·2차 개선 누적
초기 대비 전체 LLM 시간 변화	+36.33s	309.29s → 345.62s
1차 대비 최종 LLM 시간 변화	-78.63s	424.25s → 345.62s
실행 안정성	100% 유지	관측 실험 기준 에러 0회
최종 품질 판단	반영 가능	구조적 품질 통제와 토큰 효율 개선 확인

요약 해석:

현재 JY 그래프는 초기의 단순 멀티 에이전트 순차 구조에서, 문서 리스크 분석 → 후보 질문 생성 → 경량 선별 → 예상답변 → 꼬리질문 → 리뷰 → 점수화 → 최종 선별 구조로 정리되었다.
질문 품질은 단순 문장 자연스러움보다 문서 근거성, 리스크 검증력, 꼬리질문 연결성, 평가 가능성을 중심으로 관리된다.
초기 대비 총 토큰은 100,166 → 65,630 tokens로 줄어, 비용 및 State 전달량 측면에서는 명확한 개선이 확인되었다.
전체 LLM 시간은 초기 대비 아직 낮아지지 않았지만, 1차 개선 후 악화된 latency를 2차 개선에서 424.25초 → 345.62초로 되돌린 점은 유의미하다.
최종 품질 개선의 핵심은 selector_lite 자체가 아니라, 품질 검증 전후의 처리 대상을 줄이고, Reviewer/Scorer 결과를 재시도와 최종 선별에 연결한 구조다.

2. 평가 방식 및 비교 기준

2-1. 평가 방식

질문 원문 50개를 사람이 직접 채점한 평가는 아직 수행하지 않았다.
따라서 이번 최종 보고서는 다음 세 가지 기준을 함께 사용했다.

평가 축	확인 방식
질문 품질	Questioner 프롬프트, 스키마 제약, 문서 근거 필드, 리스크 태그 확인
평가가이드 품질	`evaluation_guide`, Reviewer 판정, Scorer 점수화 기준 확인
실행 품질	초기/1차/2차 실험의 LLM 호출 수, 토큰, latency, 성공률 비교

2-2. 질문 품질 평가 항목 (5개)

직무 관련성
문서 근거성
리스크 검증력