LangGraph 초기 구현 성능 보고서 (Baseline)

작성일: 2026-04-30 목적: 초기 설계 LangGraph의 성능을 정량화하여 추후 개선 실험과 비교하기 위한 베이스라인 문서 데이터 범위: Run 31~39 (8개 Run, 76개 LLM 호출), 단일 모델(gpt-5-mini), 단일 날짜(2026-04-30)

1. 전체 현황 요약 (핵심 KPI 10종)

KPI	값	비고
총 LLM 호출 수	76건	8개 Run 합산
성공률	100.0%	실패 0건
총 소비 토큰	664,817 tokens	Input 469,397 / Output 195,420
Input/Output 비율	2.40 : 1	Input이 Output의 약 2.4배
평균 레이턴시	38,604 ms (38.6s)	전체 호출 평균
중앙값 레이턴시	37,638 ms (37.6s)
P90 레이턴시	60,959 ms (61.0s)
P95 레이턴시	66,286 ms (66.3s)
최대 레이턴시	71,243 ms (71.2s)	reviewer 노드
최소 레이턴시	10,644 ms (10.6s)	driller 노드

요약 해석:

전체 호출에서 에러가 없어 기본적인 안정성은 확보되었다.
그러나 평균 38.6초, P95 66.3초라는 레이턴시는 실제 서비스에 적용하기에 높은 수준이다.
Input 토큰이 Output 토큰의 2.4배로, 프롬프트 컨텍스트가 비교적 무거운 구조임을 나타낸다.
60초를 초과하는 호출이 전체의 10.5%(8건)로, 특정 노드에서 병목이 발생하고 있다.

2. 노드별 성능 분석

2-1. 노드별 레이턴시 (ms)

노드	호출 수	평균 레이턴시	중앙값	P95	최대값	최솟값
questioner	19	38,916 ms	39,263 ms	58,177 ms	58,177 ms	14,155 ms
predictor	19	34,533 ms	37,160 ms	49,659 ms	49,659 ms	16,940 ms
driller	19	30,140 ms	28,177 ms	53,181 ms	53,181 ms	10,644 ms
reviewer	19	50,825 ms	55,966 ms	71,243 ms	71,243 ms	24,588 ms

레이턴시 기준 노드 순위 (느린 순):reviewer > questioner > predictor > driller

2-2. 노드별 토큰 사용량

노드	평균 Input	평균 Output	평균 Total	I/O 비율
questioner	9,672	2,805	12,476	3.45 : 1
predictor	5,311	2,578	7,888	2.06 : 1
driller	4,147	1,903	6,050	2.18 : 1
reviewer	5,576	2,999	8,576	1.86 : 1

관찰 사항:

questioner는 Input 토큰이 타 노드 대비 현저히 많다 (평균 9,672 tokens). 프롬프트 컨텍스트를 가장 많이 소비하는 노드이며, 프롬프트 압축 시 가장 큰 효과를 볼 수 있는 후보이다.
reviewer는 Output 토큰이 가장 많고(평균 2,999) 레이턴시도 가장 높아, 생성 분량 자체가 지연의 주요 원인일 가능성이 있다.