모델의 중요도가 낮은 가중치나 뉴런, 레이어를 제거해 모델을 작고 빠르게 만드는 기법. 성능 저하를 최소화하면서 모델 크기를 줄인다.
수십억 개의 파라미터 중 모델 성능에 기여하는 가중치는 일부에 불과하다는 관찰에서 출발한다. 중요도가 낮은 가중치를 0으로 만들거나(가중치 프루닝), 뉴런/헤드 단위로 제거하거나(구조적 프루닝), 레이어 전체를 삭제하는 방식이 있다. 구조적 프루닝은 하드웨어 가속이 용이해 실제 추론 속도 향상으로 이어진다.
최근에는 SparseGPT, Wanda 같은 LLM 특화 프루닝이 주목받는다. Llama 계열에서 20~30% 프루닝 후 약간의 파인튜닝으로 성능을 회복하는 연구들이 나왔다. 양자화와 함께 사용하면 더 극적인 압축이 가능하다.
엣지 기기나 모바일 환경에 LLM을 배포할 때 모델 크기 제한이 있다면 프루닝이 유용하다. LLM-Pruner, llm-shearing 같은 라이브러리로 Llama 계열을 구조적 프루닝하는 파이프라인을 구성할 수 있다. 양자화보다 성능 복구를 위해 추가 파인튜닝이 필요한 경우가 많다.