JY LangGraph 초기 품질 분석 보고서 (Baseline)

작성일: 2026-05-06

목적: interview_graph_JY 초기 구현의 생성 품질 구조를 정량/정성적으로 진단하여 추후 개선 실험과 비교하기 위한 베이스라인 문서

데이터 범위: 단일 실행 1건, LLM 호출 9회, 총 100,166 tokens

평가 기준: 그래프 실행 흐름, 재시도 발생 여부, 노드별 역할, 토큰 사용량, 품질 수렴 구조

참고 코드: backend/ai/interview_graph_JY

1. 전체 현황 요약 (핵심 KPI 10종)

KPI	값	비고
평가 실행 수	1건	단일 LangGraph 실행
총 LLM 호출 수	9회	최초 5회 + 재시도 4회
성공률	100.0%	실패 호출 없음
총 소비 토큰	100,166 tokens	Input 69,515 / Output 30,651
최초 생성 경로 호출 수	5회	analyzer~reviewer
재시도 경로 호출 수	4회	questioner~reviewer
재시도 발생 여부	발생	`retry_questioner` 경로 진입
최종 선택 구조	최대 5문항 선별	`selector_node` 기준
품질 검증 구조	reviewer + scorer	LLM 검토 후 규칙 기반 점수화
품질 수렴 리스크	확인됨	재시도 후 selector로 종료

요약 해석:

초기 JY 그래프는 analyzer → questioner → predictor → driller → reviewer → scorer 구조를 통해 문서 분석, 질문 생성, 예상답변, 꼬리질문, 리뷰, 점수화를 모두 수행한다.
단일 실행에서 LLM 호출은 모두 성공했으므로 실행 안정성은 확보되었다.
다만 scorer 이후 retry_questioner로 진입했기 때문에 최초 생성 결과가 내부 품질 기준을 한 번에 통과하지 못한 것으로 해석된다.
재시도 후에는 다시 questioner → predictor → driller → reviewer → scorer를 수행한 뒤 selector → final_formatter로 종료되었다.
핵심 품질 리스크는 “리뷰어 미실행”이 아니라, 재시도 이후 품질이 충분히 개선되었는지 보장하는 수렴 조건이 약한 점이다.

2. 평가 방식 및 루브릭

2-1. 평가 방식

이번 데이터에는 실제 생성된 질문 원문과 평가가이드 원문이 포함되어 있지 않다. 따라서 예시 보고서처럼 문항별 1~5점 수동 채점은 수행할 수 없다.

대신 다음 기준으로 초기 품질을 진단했다.

평가 축	확인 방식
질문 생성 품질	`questioner_node` 프롬프트/출력 구조
문서 근거성	`analyzer_node`, `candidate_context`, `document_analysis` 사용 여부
예상답변 품질	`predictor_node` 프롬프트 제약
꼬리질문 품질	`driller_node` 프롬프트 제약
리뷰 품질	`reviewer_node` 판정 기준
점수화 품질	`scorer_node` 규칙 기반 점수 계산
재시도 수렴성	`route_after_review`, retry 경로 발생 여부

2-2. 질문 품질 평가 항목

항목	코드상 반영 여부
직무 관련성	`target_job`, `prompt_profile`, 채용 기준 반영
문서 근거성	`candidate_context`, `document_analysis`, `document_evidence` 반영
검증력	리스크, 역할, 성과, 의사결정 검증 지시
구체성	`generation_basis`, `evaluation_guide` 요구
차별성/중복도	`scorer_node`에서 중복 질문 감점
면접 사용성	존댓말 질문, 평가 가이드 포함
핵심 이력 반영도	analyzer 결과 기반 질문 생성

2-3. 평가가이드 품질 평가 항목

항목	코드상 반영 여부
질문 정합성	questioner가 질문과 guide를 함께 생성
기준 구체성	`evaluation_guide` 필수 생성
관찰 가능성	scorer에서 guide 존재 여부 점수화
판별력	reviewer가 approved/needs_revision/rejected 판정
문서/직무 연계성	document evidence, competency tags 반영
실무 활용성	final formatter에서 면접 질문 형태로 통합
핵심 평가포인트 포착도	analyzer의 risk/fit 분석 활용