인프라
vLLM

Paged Attention 기법으로 KV 캐시를 효율적으로 관리해 LLM 서빙 처리량을 대폭 높인 오픈소스 프레임워크. 현재 사실상의 표준 LLM 서빙 엔진이다.

개념 설명

KV 캐시는 많은 GPU 메모리를 차지하고, 요청마다 크기가 달라 메모리 단편화가 심했다. vLLM은 OS의 가상 메모리에서 영감을 받은 Paged Attention을 도입해 KV 캐시를 고정 크기 블록(page)으로 관리한다. 메모리 낭비가 사라지고 더 많은 요청을 동시에 처리할 수 있다. 2023년 UC 버클리 연구팀이 발표해 기존 서빙 대비 최대 24배 처리량을 달성했다.

OpenAI 호환 API를 제공하고, Llama, Mistral, Mixtral 등 대부분의 오픈소스 모델을 지원한다. 연속 배칭, 프리픽스 캐싱, 투기적 디코딩도 내장되어 있다.

사용 예시

pip install vllmvllm serve meta-llama/Llama-3-8B-Instruct로 바로 서빙 서버를 띄울 수 있다. --quantization awq로 AWQ 양자화 모델도 서빙된다. 기존 OpenAI SDK 코드를 base_url만 바꿔 vLLM에 연결할 수 있어 마이그레이션이 쉽다.

#서빙#PagedAttention#고처리량
← AI Wiki에서 더 보기