작성일: 2026-05-06

목적: backend/ai/interview_graph 초기 LangGraph 구현의 단일 실행 성능을 정량화하여 추후 개선 실험과 비교하기 위한 베이스 라인 문서

데이터 범위: 단일 실행 1건, LLM 호출 9회, 모델 gpt-5-mini

실행 경로: build_state -> analyzer -> questioner -> selector_lite -> predictor -> driller -> reviewer -> scorer -> retry_questioner -> questioner -> selector_lite -> predictor -> driller -> reviewer -> scorer -> selector -> final_formatter


1. 전체 현황 요약 (핵심 KPI 10종)

KPI 비고
총 LLM 호출 수 9건 최초 경로 5건 + 재시도 경로 4건
성공률 100.0% 실패 0건
총 소비 토큰 91,517 tokens Input 59,669 / Output 31,848
Input/Output 비율 1.87 : 1 Input이 Output의 약 1.87배
총 LLM 시간 416.26초 총 시간 기준
평균 레이턴시 46,251 ms (46.3s) 전체 호출 평균
중앙값 레이턴시 41,120 ms (41.1s) 9건 기준
P90 레이턴시 68,480 ms (68.5s) nearest-rank
P95 레이턴시 68,480 ms (68.5s) nearest-rank
최대 레이턴시 68,480 ms (68.5s) questioner 재시도 호출
최소 레이턴시 28,840 ms (28.8s) analyzer 최초 호출

요약 해석:


2. 노드별 성능 분석

2-1. 노드별 레이턴시

노드 호출 수 평균 레이턴시 중앙값 P95 최대값 최솟값
analyzer 1 28,840 ms 28,840 ms 28,840 ms 28,840 ms 28,840 ms
questioner 2 68,255 ms 68,255 ms 68,480 ms 68,480 ms 68,030 ms
predictor 2 44,010 ms 44,010 ms 52,120 ms 52,120 ms 35,900 ms
driller 2 39,015 ms 39,015 ms 41,120 ms 41,120 ms 36,910 ms
reviewer 2 42,425 ms 42,425 ms 52,510 ms 52,510 ms 32,340 ms

레이턴시 기준 노드 순위 (느린 순):

questioner > predictor > reviewer > driller > analyzer

관찰 사항: