LLM 응답의 품질을 수치로 평가하는 모델. RLHF에서 인간 선호도를 학습해 이후 강화학습의 보상 신호로 활용된다.
RLHF 과정에서 매번 사람이 직접 평가할 수 없기 때문에, 인간 선호를 흉내 내는 보상 모델을 따로 학습한다. "같은 질문에 대한 응답 A와 B 중 A가 더 좋다"는 비교 데이터(preference pair)로 학습되며, 이후 LLM이 생성한 응답에 점수를 매긴다. 강화학습 단계에서는 이 점수를 최대화하도록 LLM의 가중치를 업데이트한다.
보상 모델 자체가 잘못된 신호를 줄 경우 LLM이 높은 점수를 받는 방향으로 해킹하는 문제(reward hacking)가 생긴다. 이를 방지하기 위해 여러 보상 모델을 앙상블하거나, DPO처럼 보상 모델을 아예 없애는 접근도 나왔다.
OpenAssistant, Anthropic의 HH-RLHF 등 공개 선호도 데이터셋으로 보상 모델을 학습할 수 있다. trl의 RewardTrainer가 이를 지원한다. 보상 모델을 평가 파이프라인에 사용해 LLM 응답을 자동으로 채점하는 용도로도 활용된다.