작성일: 2026-05-06
목적:
interview_graph_JY초기 구현의 생성 품질 구조를 정량/정성적으로 진단하여 추후 개선 실험과 비교하기 위한 베이스라인 문서데이터 범위: 단일 실행 1건, LLM 호출 9회, 총 100,166 tokens
평가 기준: 그래프 실행 흐름, 재시도 발생 여부, 노드별 역할, 토큰 사용량, 품질 수렴 구조
참고 코드:
backend/ai/interview_graph_JY
| KPI | 값 | 비고 |
|---|---|---|
| 평가 실행 수 | 1건 | 단일 LangGraph 실행 |
| 총 LLM 호출 수 | 9회 | 최초 5회 + 재시도 4회 |
| 성공률 | 100.0% | 실패 호출 없음 |
| 총 소비 토큰 | 100,166 tokens | Input 69,515 / Output 30,651 |
| 최초 생성 경로 호출 수 | 5회 | analyzer~reviewer |
| 재시도 경로 호출 수 | 4회 | questioner~reviewer |
| 재시도 발생 여부 | 발생 | retry_questioner 경로 진입 |
| 최종 선택 구조 | 최대 5문항 선별 | selector_node 기준 |
| 품질 검증 구조 | reviewer + scorer | LLM 검토 후 규칙 기반 점수화 |
| 품질 수렴 리스크 | 확인됨 | 재시도 후 selector로 종료 |
요약 해석:
analyzer → questioner → predictor → driller → reviewer → scorer 구조를 통해 문서 분석, 질문 생성, 예상답변, 꼬리질문, 리뷰, 점수화를 모두 수행한다.scorer 이후 retry_questioner로 진입했기 때문에 최초 생성 결과가 내부 품질 기준을 한 번에 통과하지 못한 것으로 해석된다.questioner → predictor → driller → reviewer → scorer를 수행한 뒤 selector → final_formatter로 종료되었다.이번 데이터에는 실제 생성된 질문 원문과 평가가이드 원문이 포함되어 있지 않다. 따라서 예시 보고서처럼 문항별 1~5점 수동 채점은 수행할 수 없다.
대신 다음 기준으로 초기 품질을 진단했다.
| 평가 축 | 확인 방식 |
|---|---|
| 질문 생성 품질 | questioner_node 프롬프트/출력 구조 |
| 문서 근거성 | analyzer_node, candidate_context, document_analysis 사용 여부 |
| 예상답변 품질 | predictor_node 프롬프트 제약 |
| 꼬리질문 품질 | driller_node 프롬프트 제약 |
| 리뷰 품질 | reviewer_node 판정 기준 |
| 점수화 품질 | scorer_node 규칙 기반 점수 계산 |
| 재시도 수렴성 | route_after_review, retry 경로 발생 여부 |
| 항목 | 코드상 반영 여부 |
|---|---|
| 직무 관련성 | target_job, prompt_profile, 채용 기준 반영 |
| 문서 근거성 | candidate_context, document_analysis, document_evidence 반영 |
| 검증력 | 리스크, 역할, 성과, 의사결정 검증 지시 |
| 구체성 | generation_basis, evaluation_guide 요구 |
| 차별성/중복도 | scorer_node에서 중복 질문 감점 |
| 면접 사용성 | 존댓말 질문, 평가 가이드 포함 |
| 핵심 이력 반영도 | analyzer 결과 기반 질문 생성 |
| 항목 | 코드상 반영 여부 |
|---|---|
| 질문 정합성 | questioner가 질문과 guide를 함께 생성 |
| 기준 구체성 | evaluation_guide 필수 생성 |
| 관찰 가능성 | scorer에서 guide 존재 여부 점수화 |
| 판별력 | reviewer가 approved/needs_revision/rejected 판정 |
| 문서/직무 연계성 | document evidence, competency tags 반영 |
| 실무 활용성 | final formatter에서 면접 질문 형태로 통합 |
| 핵심 평가포인트 포착도 | analyzer의 risk/fit 분석 활용 |