모델
추측적 디코딩
Speculative Decoding

작은 드래프트 모델이 여러 토큰을 미리 예측하고, 큰 모델이 한 번에 검증해 처리 속도를 높이는 기법. 품질은 유지하면서 지연 시간을 크게 줄인다.

개념 설명

LLM은 토큰을 한 번에 하나씩 생성하기 때문에 느리다. 추측적 디코딩은 작고 빠른 모델(드래프트 모델)이 먼저 여러 토큰을 예측한 뒤, 큰 모델이 이를 한 번의 forward pass로 전부 검증한다. 맞으면 그대로 채택하고, 틀린 부분부터 다시 생성한다. 품질 저하 없이 2~3배 빠른 추론이 가능하다.

사용 예시

vLLM 같은 추론 서버에서 speculative decoding을 활성화하면 같은 GPU로 더 높은 처리량을 낼 수 있다. 코드 자동완성처럼 반복적인 패턴이 많은 태스크에서 특히 효과적이다.

#추론속도#최적화#드래프트모델
← AI Wiki에서 더 보기