작성일: 2026-04-30 목적: 초기 설계 LangGraph의 성능을 정량화하여 추후 개선 실험과 비교하기 위한 베이스라인 문서 데이터 범위: Run 31~39 (8개 Run, 76개 LLM 호출), 단일 모델(gpt-5-mini), 단일 날짜(2026-04-30)
| KPI | 값 | 비고 |
|---|---|---|
| 총 LLM 호출 수 | 76건 | 8개 Run 합산 |
| 성공률 | 100.0% | 실패 0건 |
| 총 소비 토큰 | 664,817 tokens | Input 469,397 / Output 195,420 |
| Input/Output 비율 | 2.40 : 1 | Input이 Output의 약 2.4배 |
| 평균 레이턴시 | 38,604 ms (38.6s) | 전체 호출 평균 |
| 중앙값 레이턴시 | 37,638 ms (37.6s) | |
| P90 레이턴시 | 60,959 ms (61.0s) | |
| P95 레이턴시 | 66,286 ms (66.3s) | |
| 최대 레이턴시 | 71,243 ms (71.2s) | reviewer 노드 |
| 최소 레이턴시 | 10,644 ms (10.6s) | driller 노드 |
요약 해석:
| 노드 | 호출 수 | 평균 레이턴시 | 중앙값 | P95 | 최대값 | 최솟값 |
|---|---|---|---|---|---|---|
| questioner | 19 | 38,916 ms | 39,263 ms | 58,177 ms | 58,177 ms | 14,155 ms |
| predictor | 19 | 34,533 ms | 37,160 ms | 49,659 ms | 49,659 ms | 16,940 ms |
| driller | 19 | 30,140 ms | 28,177 ms | 53,181 ms | 53,181 ms | 10,644 ms |
| reviewer | 19 | 50,825 ms | 55,966 ms | 71,243 ms | 71,243 ms | 24,588 ms |
레이턴시 기준 노드 순위 (느린 순):reviewer > questioner > predictor > driller
| 노드 | 평균 Input | 평균 Output | 평균 Total | I/O 비율 |
|---|---|---|---|---|
| questioner | 9,672 | 2,805 | 12,476 | 3.45 : 1 |
| predictor | 5,311 | 2,578 | 7,888 | 2.06 : 1 |
| driller | 4,147 | 1,903 | 6,050 | 2.18 : 1 |
| reviewer | 5,576 | 2,999 | 8,576 | 1.86 : 1 |
관찰 사항:
questioner는 Input 토큰이 타 노드 대비 현저히 많다 (평균 9,672 tokens). 프롬프트 컨텍스트를 가장 많이 소비하는 노드이며, 프롬프트 압축 시 가장 큰 효과를 볼 수 있는 후보이다.reviewer는 Output 토큰이 가장 많고(평균 2,999) 레이턴시도 가장 높아, 생성 분량 자체가 지연의 주요 원인일 가능성이 있다.