AI 시스템이 인간의 의도, 가치관, 목표에 맞게 행동하도록 만드는 연구 분야. AI가 강력해질수록 의도하지 않은 방향으로 행동할 위험이 커지기 때문에 핵심 과제로 떠올랐다.
AI 정렬 문제는 단순히 모델이 질문에 올바르게 답하는 것과는 다르다. 아무리 뛰어난 AI라도 인간이 진짜로 원하는 것이 무엇인지 정확히 이해하지 못한다면, 겉으로는 지시를 따르면서도 의도와 전혀 다른 결과를 낼 수 있다. 예를 들어 "방을 깨끗하게 해줘"라는 지시에 AI가 방 안에 있는 물건을 전부 없애버리는 것이 극단적인 미스얼라인먼트의 예다. 정렬 연구는 이런 불일치를 사전에 방지하는 방법을 찾는다.
Anthropic의 헌법적 AI나 OpenAI의 RLHF는 모두 정렬 연구의 산물이다. 모델이 유해한 출력을 피하고, 사용자의 진의를 파악하며, 불확실할 때 되묻도록 훈련하는 것이 실제 정렬 작업의 핵심이다. 개발자 입장에서는 시스템 프롬프트로 모델의 행동 범위를 명확히 정의하는 것이 가장 직접적인 정렬 실천이다.