AI 모델의 취약점을 찾기 위해 의도적으로 공격자 역할을 수행하는 테스트 방법론. 모델이 출시되기 전에 위험한 출력을 유도할 수 있는 입력을 미리 발견해 대응하는 것이 목적이다.
레드팀은 원래 군사·보안 분야에서 쓰이던 개념으로, 방어 측의 약점을 찾기 위해 공격자 역할을 맡는 팀을 말한다. AI에서는 모델이 유해한 콘텐츠를 생성하거나, 시스템 프롬프트를 무시하거나, 민감한 정보를 노출하도록 유도하는 입력을 체계적으로 탐색하는 과정을 가리킨다. 단순한 버그 탐색이 아니라, "이 모델을 나쁜 의도로 쓴다면 어떻게 쓸 수 있을까"를 상상하며 실험하는 작업이다.
모델을 배포하기 전에 내부 레드팀이 수백 개의 적대적 프롬프트를 직접 작성해 모델에 입력하고, 어떤 응답이 나오는지 기록한다. 예를 들어 역할극 시나리오나 간접 지시를 이용해 가드레일을 우회할 수 있는지 확인한다. 발견된 취약점은 RLHF나 파인튜닝을 통해 수정하거나, 출력 필터링 단계에서 차단하도록 반영한다.