모델
GRPO
Group Relative Policy Optimization

같은 질문에 대해 여러 응답을 샘플링하고 그룹 내 상대적 점수로 보상을 계산하는 RL 알고리즘. DeepSeek-R1에서 사용해 추론 모델 학습 방법으로 주목받았다.

개념 설명

기존 PPO는 강화학습 과정에서 별도의 가치 함수(critic)를 학습해야 해서 메모리와 계산 비용이 높았다. GRPO는 같은 질문에 여러 응답을 생성하고, 그 그룹 내에서 상대적으로 좋고 나쁨을 비교해 보상을 계산한다. 가치 함수 없이 그룹 내 비교만으로 학습 신호를 만드는 것이다.

DeepSeek이 DeepSeek-Math(2024)와 DeepSeek-R1에서 GRPO로 추론 능력을 획기적으로 향상시키면서 큰 주목을 받았다. 수학 문제의 정오답처럼 검증 가능한 보상이 있을 때 특히 효과적이다.

사용 예시

TRL 라이브러리에 GRPOTrainer가 구현되어 있다. 수학 풀이, 코드 생성, 형식 준수 같이 자동으로 정오답을 판별할 수 있는 태스크에 적합하다. 보상 함수를 정답 확인 함수로 정의하고, 같은 문제에 8~16개의 응답을 샘플링해 상대적 점수를 계산한다.

#강화학습#DeepSeek#추론모델
← AI Wiki에서 더 보기