작성일: 2026년 5월 8일
대상:
backend/ai/interview_graph목적: 최종 반영된 2차 개선안 적용 후 LangGraph 기반 면접 질문 생성 파이프라인의 품질, 비용, Latency, 안정성을 평가한다.
기준 AS-IS: LLM 호출 9회, 총 91,517 tokens, 총 LLM 시간 416.26초
최종 TO-BE: LLM 호출 9회, 총 47,002 tokens, 총 LLM 시간 207.54초
평가 방식: 단일 실행 로그 + 반영된 구조 개선 내용 기반 분석
주의: 본 문서는 질문 원문 전체를 수동 채점한 결과가 아니라, 실행 로그와 파이프라인 구조를 기반으로 한 품질/성능 분석 보고서이다.
| KPI | AS-IS | 최종 TO-BE | 변화 |
|---|---|---|---|
| LLM 호출 수 | 9회 | 9회 | 동일 |
| 입력 토큰 | 59,669 | 40,770 | -18,899 |
| 출력 토큰 | 31,848 | 6,232 | -25,616 |
| 총 토큰 | 91,517 | 47,002 | -44,515 |
| 총 토큰 개선율 | - | -48.6% | 개선 |
| 총 LLM 시간 | 416.26초 | 207.54초 | -208.72초 |
| LLM 시간 개선율 | - | -50.1% | 개선 |
| 총 비용 | - | 약 $0.009853 | 최종 로그 기준 |
| 실행 상태 | 성공 | 성공 | 안정성 유지 |
| Scorer LLM 호출 | 발생 가능 | 제거 | timeout 리스크 제거 |
| 최종 판단 | 개선 필요 | 반영 가능 | 품질/비용/성능 개선 확인 |
최종 2차 개선 적용 후 전체 토큰은 91,517 → 47,002 tokens로 감소했고, 총 LLM 시간은 416.26초 → 207.54초로 감소했다.
이번 개선의 핵심은 단순히 모델을 교체하거나 프롬프트만 수정한 것이 아니라, 질문 생성 결과가 상태 관리, 품질 검증, 재시도, 최종 선별까지 안정적으로 이어지도록 파이프라인 구조를 정리한 데 있다.
특히 다음 6가지가 핵심 개선 사항이다.
| # | 노드 | 모델 | 입력 | 출력 | 총 토큰 | 시간 | 비용 | 상태 |
|---|---|---|---|---|---|---|---|---|
| 1 | analyzer | gpt-4o-mini | 4,519 | 519 | 5,038 | 28.23초 | $0.000989 | 성공 |
| 2 | questioner | gpt-4o-mini | 5,274 | 1,628 | 6,902 | 58.20초 | $0.001768 | 성공 |
| 3 | predictor | gpt-4o-mini | 5,387 | 575 | 5,962 | 14.38초 | $0.001153 | 성공 |
| 4 | driller | gpt-4o-mini | 3,026 | 421 | 3,447 | 10.50초 | $0.000706 | 성공 |
| 5 | reviewer | gpt-4o-mini | 3,571 | 253 | 3,824 | 17.31초 | $0.000687 | 성공 |
| 6 | questioner | gpt-4o-mini | 6,747 | 1,542 | 8,289 | 39.11초 | $0.001937 | 성공 |
| 7 | predictor | gpt-4o-mini | 5,350 | 569 | 5,919 | 18.95초 | $0.001144 | 성공 |
| 8 | driller | gpt-4o-mini | 3,369 | 410 | 3,779 | 9.42초 | $0.000751 | 성공 |
| 9 | reviewer | gpt-4o-mini | 3,527 | 315 | 3,842 | 11.45초 | $0.000718 | 성공 |
| 항목 | 내용 |
|---|---|
| 대상 | final_formatter, schemas.py, questioner, selector_lite, predictor, driller, reviewer, scorer, router |
| 한 줄 목적 | 질문 생성 상태, 품질 상태, 카테고리 계약, 출력 스키마, 재시도 범위를 정리해 전체 파이프라인의 품질과 비용을 동시에 개선한다. |
| 실험 유형 | 성능 / 비용 / 안정성 / 품질 / State 구조 개선 |
| 기준 AS-IS | LLM 호출 9회, 총 91,517 tokens, 총 LLM 시간 416.26초 |
| 최종 TO-BE | LLM 호출 9회, 총 47,002 tokens, 총 LLM 시간 207.54초 |
| 반영 여부 | 반영 |