인프라
연속 배칭
Continuous Batching

LLM 서빙에서 완료된 요청을 즉시 새 요청으로 교체해 GPU를 쉬지 않고 활용하는 스케줄링 기법. 기존 정적 배칭 대비 처리량을 수십 배 높인다.

개념 설명

기존 배칭은 같은 배치의 모든 요청이 끝날 때까지 새 요청을 받지 않았다. 짧은 요청이 먼저 끝나도 긴 요청이 끝날 때까지 GPU가 절반 놀고 있는 셈이다. 연속 배칭은 한 요청이 완료되는 즉시 대기 중인 새 요청이 그 자리를 채운다. 항상 GPU가 꽉 찬 상태로 돌아가기 때문에 처리량이 극적으로 향상된다.

vLLM, TGI 등 현대 LLM 서빙 프레임워크의 핵심 기능이다. iteration-level 스케줄링이라고도 불리며, 각 토큰 생성 단계에서 배치를 동적으로 재구성한다.

사용 예시

vLLM은 기본적으로 연속 배칭을 사용한다. 다양한 길이의 요청이 섞이는 실제 서비스 환경에서 단순 정적 배칭 대비 GPU 활용률이 크게 올라가고, 같은 인프라로 더 많은 요청을 처리할 수 있다. 특히 짧은 요청과 긴 요청이 혼재하는 챗봇 서비스에서 효과가 크다.

#처리량#스케줄링#vLLM
← AI Wiki에서 더 보기