모델
양자화
Quantization

모델 가중치를 32비트 부동소수점에서 8비트, 4비트 정수 등 낮은 정밀도로 변환해 메모리와 연산 비용을 줄이는 기법. 큰 모델을 소비자 장치에서 실행할 수 있게 한다.

개념 설명

float32(4바이트)로 저장된 가중치를 int8(1바이트)로 변환하면 모델 크기가 4분의 1로 줄고, GPU 메모리 사용량이 대폭 감소한다. 4비트 양자화는 8분의 1 수준이다. 정밀도가 낮아지면서 약간의 성능 저하가 생기지만, 적절한 양자화 방법을 쓰면 손실이 미미하다. GPTQ(사후 학습 양자화)와 AWQ가 가장 널리 쓰이는 LLM 양자화 방법이다.

로컬 실행에서는 GGUF 형식이 표준이다. llama.cpp가 GGUF를 지원하며, CPU에서도 양자화된 LLM을 실행할 수 있게 했다. HuggingFace에서 Q4_K_M, Q5_K_S 같은 이름의 GGUF 파일을 쉽게 찾을 수 있다.

사용 예시

Ollama로 Llama나 Mistral을 로컬에서 실행하면 자동으로 양자화된 모델을 받아 사용한다. 프로덕션 서빙에서는 bitsandbytes나 GPTQ로 양자화해 GPU 메모리를 아끼거나 배치 크기를 늘린다. vLLM도 AWQ, GPTQ 양자화를 지원한다.

#경량화#INT8#GGUF
← AI Wiki에서 더 보기