포스트 트레이닝 (Post-Training)

모델

포스트 트레이닝

Post-Training

사전학습된 모델을 실제로 쓸 수 있는 어시스턴트로 만드는 전체 과정. SFT로 지시를 따르게 하고, RLHF/DPO로 인간 선호에 맞추는 파이프라인이다.

개념 설명

사전학습은 언어를 이해하는 "원석"을 만들고, 포스트 트레이닝은 이를 "보석"으로 다듬는 과정이다. 보통 세 단계를 거친다. 먼저 SFT로 지시-응답 쌍을 학습시켜 대화 형식을 가르치고, RLHF나 DPO로 인간이 선호하는 응답 스타일에 맞추고, 안전성 학습으로 유해한 출력을 억제한다. 같은 사전학습 모델이라도 포스트 트레이닝을 어떻게 하느냐에 따라 성격이 완전히 달라진다.

사용 예시

Llama의 base 모델과 chat 모델의 차이가 바로 포스트 트레이닝이다. 자체 포스트 트레이닝 파이프라인을 구축할 때는 trl 라이브러리로 SFT → DPO 순서로 진행하고, 각 단계마다 eval로 품질을 확인한다. 최근에는 GRPO처럼 추론 능력을 강화하는 RL도 포스트 트레이닝에 포함된다.

#정렬#SFT#RLHF

← AI Wiki에서 더 보기