안전
헌법적 AI
Constitutional AI

AI 모델이 스스로 자신의 출력을 헌법(원칙 목록)에 비추어 평가하고 수정하도록 훈련하는 방법. 사람이 일일이 라벨링하지 않아도 AI가 안전하고 도움이 되는 방향으로 스스로 개선되게 한다.

개념 설명

Anthropic이 개발한 방법론으로, AI에게 "다음 원칙들을 지켜라"는 식의 헌법을 주고 자신의 응답이 그 원칙에 부합하는지 스스로 비판하게 한다. 기존 RLHF가 사람의 피드백에 의존했다면, Constitutional AI는 AI 자신이 비평가 역할을 맡는다. 이렇게 하면 대량의 인간 라벨링 없이도 더 일관된 안전 기준을 적용할 수 있다.

사용 예시

Claude 시리즈 모델이 Constitutional AI로 훈련된 대표적 사례다. 유해한 요청에 단순히 거부하는 것이 아니라, 왜 거부하는지 설명하고 대안을 제시하는 방식은 이 훈련 방식에서 비롯된다. 개발자가 시스템 프롬프트에 사용 정책을 명시하면, 모델은 그 정책을 헌법의 일부로 해석해 동작한다.

#Anthropic#정렬#RLHF
← AI Wiki에서 더 보기