RLHF (RL from Human Feedback)

모델

RLHF

RL from Human Feedback

인간의 선호도 피드백으로 LLM을 "유용하고 무해하게" 정렬하는 학습 기법. ChatGPT가 그냥 텍스트 생성기가 아니라 도움이 되는 어시스턴트인 이유다.

RLHF란

사전 학습된 LLM은 인터넷 텍스트의 패턴을 학습했을 뿐, 인간에게 도움이 되는 방향으로 훈련된 건 아니다. "폭탄 만드는 법"도, "시 써줘"도 같은 텍스트 생성 과제일 뿐이다. RLHF는 인간 평가자가 "이 응답이 더 좋다"고 판단한 데이터로 보상 모델을 학습시키고, 이 보상 모델을 기준으로 LLM을 강화학습시켜 유용하고 안전한 방향으로 정렬한다.

왜 알아야 하나

모든 상용 LLM(ChatGPT, Claude, Gemini, Llama)이 RLHF 또는 그 변형을 거친다. 에이전트를 만들 때 모델이 왜 특정 방식으로 행동하는지 — 예를 들어 위험한 명령을 거부하거나, 불확실할 때 확인을 요청하는 이유 — 를 이해하려면 RLHF를 알아야 한다.

DPO는 보상 모델 없이 선호 데이터에서 직접 학습시키는 간소화된 방법이고, RLAIF는 인간 대신 LLM이 피드백을 제공해서 비용을 크게 낮추는 방법이다.

#강화학습#정렬

← AI Wiki에서 더 보기