LangGraph 초기 구현 성능 보고서 (Baseline)

작성일: 2026-04-30 목적: 초기 설계 LangGraph의 성능을 정량화하여 추후 개선 실험과 비교하기 위한 베이스라인 문서 데이터 범위: Run 31~39 (8개 Run, 76개 LLM 호출), 단일 모델(gpt-5-mini), 단일 날짜(2026-04-30)


1. 전체 현황 요약 (핵심 KPI 10종)

KPI 비고
총 LLM 호출 수 76건 8개 Run 합산
성공률 100.0% 실패 0건
총 소비 토큰 664,817 tokens Input 469,397 / Output 195,420
Input/Output 비율 2.40 : 1 Input이 Output의 약 2.4배
평균 레이턴시 38,604 ms (38.6s) 전체 호출 평균
중앙값 레이턴시 37,638 ms (37.6s)
P90 레이턴시 60,959 ms (61.0s)
P95 레이턴시 66,286 ms (66.3s)
최대 레이턴시 71,243 ms (71.2s) reviewer 노드
최소 레이턴시 10,644 ms (10.6s) driller 노드

요약 해석:


2. 노드별 성능 분석

2-1. 노드별 레이턴시 (ms)

노드 호출 수 평균 레이턴시 중앙값 P95 최대값 최솟값
questioner 19 38,916 ms 39,263 ms 58,177 ms 58,177 ms 14,155 ms
predictor 19 34,533 ms 37,160 ms 49,659 ms 49,659 ms 16,940 ms
driller 19 30,140 ms 28,177 ms 53,181 ms 53,181 ms 10,644 ms
reviewer 19 50,825 ms 55,966 ms 71,243 ms 71,243 ms 24,588 ms

레이턴시 기준 노드 순위 (느린 순):reviewer > questioner > predictor > driller

2-2. 노드별 토큰 사용량

노드 평균 Input 평균 Output 평균 Total I/O 비율
questioner 9,672 2,805 12,476 3.45 : 1
predictor 5,311 2,578 7,888 2.06 : 1
driller 4,147 1,903 6,050 2.18 : 1
reviewer 5,576 2,999 8,576 1.86 : 1

관찰 사항: