HS LangGraph 초기 구현 성능 보고서

작성일: 2026-05-06

목적: backend/ai/interview_graph 초기 LangGraph 구현의 단일 실행 성능을 정량화하여 추후 개선 실험과 비교하기 위한 베이스 라인 문서

데이터 범위: 단일 실행 1건, LLM 호출 9회, 모델 gpt-5-mini

실행 경로: build_state -> analyzer -> questioner -> selector_lite -> predictor -> driller -> reviewer -> scorer -> retry_questioner -> questioner -> selector_lite -> predictor -> driller -> reviewer -> scorer -> selector -> final_formatter

1. 전체 현황 요약 (핵심 KPI 10종)

KPI	값	비고
총 LLM 호출 수	9건	최초 경로 5건 + 재시도 경로 4건
성공률	100.0%	실패 0건
총 소비 토큰	91,517 tokens	Input 59,669 / Output 31,848
Input/Output 비율	1.87 : 1	Input이 Output의 약 1.87배
총 LLM 시간	416.26초	총 시간 기준
평균 레이턴시	46,251 ms (46.3s)	전체 호출 평균
중앙값 레이턴시	41,120 ms (41.1s)	9건 기준
P90 레이턴시	68,480 ms (68.5s)	nearest-rank
P95 레이턴시	68,480 ms (68.5s)	nearest-rank
최대 레이턴시	68,480 ms (68.5s)	questioner 재시도 호출
최소 레이턴시	28,840 ms (28.8s)	analyzer 최초 호출

요약 해석:

전체 LLM 호출 9건이 모두 성공했으며, 단일 실행 기준 실패는 관찰되지 않았다.
총 LLM 시간은 약 416.3초로, 그래프 단위 체감 시간은 여전히 크다.
questioner가 최초/재시도 모두 68초대로 가장 큰 병목이다.
현재 구현상 build_state, selector_lite, scorer, retry_questioner, selector, final_formatter는 LLM 호출 없이 상태 구성, 후보 축소, 점수 계산, 재시도 상태 갱신, 최종 선택/포맷팅을 담당한다.
selector_lite가 questioner 직후 후보 질문을 5개로 줄이기 때문에 downstream 노드의 입력 규모를 제한하는 역할을 한다.

2. 노드별 성능 분석

2-1. 노드별 레이턴시

노드	호출 수	평균 레이턴시	중앙값	P95	최대값	최솟값
analyzer	1	28,840 ms	28,840 ms	28,840 ms	28,840 ms	28,840 ms
questioner	2	68,255 ms	68,255 ms	68,480 ms	68,480 ms	68,030 ms
predictor	2	44,010 ms	44,010 ms	52,120 ms	52,120 ms	35,900 ms
driller	2	39,015 ms	39,015 ms	41,120 ms	41,120 ms	36,910 ms
reviewer	2	42,425 ms	42,425 ms	52,510 ms	52,510 ms	32,340 ms

레이턴시 기준 노드 순위 (느린 순):

questioner > predictor > reviewer > driller > analyzer

관찰 사항:

HS 실행에서는 questioner가 명확한 병목이다.
analyzer는 28.84초로 전체 LLM 노드 중 가장 빠르다.
재시도 경로에서 predictor, reviewer 레이턴시가 각각 52초대로 증가했다.