학습된 LLM을 실제 사용자 요청에 응답하도록 배포하고 운영하는 인프라. 지연 시간, 처리량, 비용의 균형을 맞추는 게 핵심 과제다.
좋은 모델을 만들어도 빠르고 안정적으로 서빙하지 못하면 쓸모가 없다. LLM 서빙은 일반 모델보다 훨씬 복잡하다. 요청마다 생성 토큰 수가 다르고, 스트리밍 응답이 필요하며, 배치 처리를 위한 연속 배칭이 필요하다. KV 캐시 관리, GPU 메모리 최적화, 요청 스케줄링이 서빙 성능을 결정한다.
vLLM, TGI(Text Generation Inference), TensorRT-LLM이 대표적인 오픈소스 서빙 프레임워크다. 각각 Paged Attention, 연속 배칭, TensorRT 최적화로 서빙 효율을 높인다.
vLLM을 Docker로 띄우면 OpenAI 호환 API 엔드포인트가 생성된다. --model meta-llama/Llama-3-8B 같이 모델을 지정하면 기본 설정으로 서빙을 시작할 수 있다. 트래픽에 따라 GPU 수를 동적으로 조절하는 Kubernetes 기반 오토스케일링과 결합해 운영한다.