작성일: 2026-05-06

목적: interview_graph_JY 초기 구현의 생성 품질 구조를 정량/정성적으로 진단하여 추후 개선 실험과 비교하기 위한 베이스라인 문서

데이터 범위: 단일 실행 1건, LLM 호출 9회, 총 100,166 tokens

평가 기준: 그래프 실행 흐름, 재시도 발생 여부, 노드별 역할, 토큰 사용량, 품질 수렴 구조

참고 코드: backend/ai/interview_graph_JY


1. 전체 현황 요약 (핵심 KPI 10종)

KPI 비고
평가 실행 수 1건 단일 LangGraph 실행
총 LLM 호출 수 9회 최초 5회 + 재시도 4회
성공률 100.0% 실패 호출 없음
총 소비 토큰 100,166 tokens Input 69,515 / Output 30,651
최초 생성 경로 호출 수 5회 analyzer~reviewer
재시도 경로 호출 수 4회 questioner~reviewer
재시도 발생 여부 발생 retry_questioner 경로 진입
최종 선택 구조 최대 5문항 선별 selector_node 기준
품질 검증 구조 reviewer + scorer LLM 검토 후 규칙 기반 점수화
품질 수렴 리스크 확인됨 재시도 후 selector로 종료

요약 해석:


2. 평가 방식 및 루브릭

2-1. 평가 방식

이번 데이터에는 실제 생성된 질문 원문과 평가가이드 원문이 포함되어 있지 않다. 따라서 예시 보고서처럼 문항별 1~5점 수동 채점은 수행할 수 없다.

대신 다음 기준으로 초기 품질을 진단했다.

평가 축 확인 방식
질문 생성 품질 questioner_node 프롬프트/출력 구조
문서 근거성 analyzer_node, candidate_context, document_analysis 사용 여부
예상답변 품질 predictor_node 프롬프트 제약
꼬리질문 품질 driller_node 프롬프트 제약
리뷰 품질 reviewer_node 판정 기준
점수화 품질 scorer_node 규칙 기반 점수 계산
재시도 수렴성 route_after_review, retry 경로 발생 여부

2-2. 질문 품질 평가 항목

항목 코드상 반영 여부
직무 관련성 target_job, prompt_profile, 채용 기준 반영
문서 근거성 candidate_context, document_analysis, document_evidence 반영
검증력 리스크, 역할, 성과, 의사결정 검증 지시
구체성 generation_basis, evaluation_guide 요구
차별성/중복도 scorer_node에서 중복 질문 감점
면접 사용성 존댓말 질문, 평가 가이드 포함
핵심 이력 반영도 analyzer 결과 기반 질문 생성

2-3. 평가가이드 품질 평가 항목

항목 코드상 반영 여부
질문 정합성 questioner가 질문과 guide를 함께 생성
기준 구체성 evaluation_guide 필수 생성
관찰 가능성 scorer에서 guide 존재 여부 점수화
판별력 reviewer가 approved/needs_revision/rejected 판정
문서/직무 연계성 document evidence, competency tags 반영
실무 활용성 final formatter에서 면접 질문 형태로 통합
핵심 평가포인트 포착도 analyzer의 risk/fit 분석 활용