LLM 응답의 첫 토큰까지 걸리는 시간(TTFT)과 전체 생성 시간을 줄이는 기술 모음. 캐싱, 추측적 디코딩, 모델 최적화, 배포 지역 최적화 등이 포함된다.
레이턴시는 크게 두 지표로 나뉜다. TTFT(Time to First Token)는 요청 후 첫 토큰이 오기까지의 시간이고, TPOT(Time Per Output Token)는 이후 각 토큰 생성 간격이다. 사용자 체감에는 TTFT가 가장 중요하다. TTFT를 줄이려면 프롬프트 처리 속도를 높여야 하고(Flash Attention, KV Cache), TPOT는 토큰 생성 속도를 높이는 데 집중한다.
추측적 디코딩은 TPOT를 줄이고, 프롬프트 캐싱은 TTFT를 줄인다. 사용자에게 가까운 지역에 서빙 인프라를 배치하는 지역 최적화도 중요하다.
Claude API의 프롬프트 캐싱을 활성화해 반복되는 시스템 프롬프트의 TTFT를 줄이고, vLLM의 추측적 디코딩으로 생성 속도를 높이며, 사용자가 많은 지역의 데이터센터 엔드포인트를 우선 호출하는 세 가지를 조합하면 레이턴시를 크게 줄일 수 있다.