큰 모델(Teacher)의 지식을 작은 모델(Student)에게 전달해서, 훨씬 가볍고 저렴하면서도 비슷한 성능을 내는 모델을 만드는 기법.
GPT-4급 모델은 성능은 좋지만 느리고 비싸다. 증류는 이 큰 모델이 문제를 푸는 방식 — 확률 분포, 추론 과정 — 을 작은 모델에게 가르치는 기법이다. 학생이 선생의 풀이 과정을 보고 배우는 것과 같다. Geoffrey Hinton이 2015년에 제안했고, LLM 시대에 와서 비용 최적화의 핵심 기법으로 부상했다.
Claude Opus로 고품질 응답 데이터를 먼저 생성하고, 이걸 학습 데이터로 써서 Haiku급 소형 모델을 파인튜닝하면 특정 도메인에서 Opus에 근접한 성능을 1/100 비용으로 얻을 수 있다. OpenAI는 GPT-4o의 지식을 GPT-4o-mini에 증류하는 공식 API를 제공하고, Amazon Bedrock도 대형 모델에서 소형 모델로 증류하는 기능을 정식 출시했다.
DeepSeek은 R1 모델의 추론 능력을 1.5B부터 70B까지 다양한 크기의 Student 모델에 증류해서, 수학·논리 벤치마크에서 원본에 근접하는 성능을 달성했다. Chain-of-Thought 같은 복잡한 추론 능력도 증류로 전달 가능하다는 것을 증명한 사례다.
파인튜닝은 도메인 데이터로 모델을 추가 학습시키는 것이고, 증류는 큰 모델의 행동을 작은 모델에 이식하는 것이다. 실무에서는 둘을 결합해, 큰 모델로 합성 데이터를 생성한 뒤 작은 모델을 파인튜닝하는 방식이 표준이 되고 있다.
2025년 DeepSeek이 OpenAI 모델의 출력을 증류에 활용했다는 논란이 불거지면서, 증류 공격(Distillation Attack)이 새로운 보안 이슈로 떠올랐다. 대부분의 AI 회사들은 이용약관에 경쟁 모델 학습 목적의 출력 사용을 금지하고 있지만, 기술적으로 이를 막기는 어렵다.