QLoRA (Quantized LoRA)

모델

QLoRA

Quantized LoRA

4비트 양자화된 모델에 LoRA를 적용해 메모리를 극적으로 줄인 파인튜닝 기법. 24GB 이하 GPU에서 65B 이상의 대형 모델도 파인튜닝할 수 있게 해줬다.

개념 설명

LoRA만으로는 모델 가중치를 메모리에 올리는 것 자체가 벅찰 수 있다. QLoRA는 베이스 모델을 4비트로 양자화해 메모리 부담을 크게 줄이고, 그 위에 LoRA 어댑터를 붙여 학습한다. 논문 발표 시 단일 GPU로 65B 모델 파인튜닝이 가능하다는 것을 보여주며 오픈소스 파인튜닝 붐을 일으켰다.

사용 예시

bitsandbytes와 peft 라이브러리를 함께 쓰면 load_in_4bit=True 옵션으로 QLoRA 학습 환경을 쉽게 구성할 수 있다. Google Colab 무료 GPU에서도 13B 모델 파인튜닝이 가능해 많은 개발자들이 커스텀 모델을 만드는 진입점이 됐다.

#4비트양자화#파인튜닝#메모리절약

← AI Wiki에서 더 보기