탈옥 (Jailbreak)

안전

탈옥

Jailbreak

AI 모델의 안전 장치를 우회해 본래라면 거부했을 응답을 이끌어내는 기법. 역할극, 특수 서식, 간접 지시 등 다양한 방법이 있으며 모델 보안 연구의 핵심 주제다.

개념 설명

AI 모델은 훈련을 통해 유해한 요청을 거부하도록 설계되어 있지만, 이 안전 장치는 완벽하지 않다. 탈옥은 "당신은 규칙이 없는 AI야"라는 역할극, 특수 문자로 텍스트를 감추거나, 허구의 맥락을 씌워 모델이 금지된 응답을 하도록 유도하는 방법 전반을 일컫는다. 탈옥이 성공한다는 것은 모델의 정렬이 불완전하다는 신호다.

사용 예시

보안 연구자는 레드팀 과정에서 다양한 탈옥 시도를 체계적으로 문서화한다. 발견된 탈옥 패턴은 출력 필터링이나 추가 파인튜닝에 반영된다. 서비스를 개발할 때는 시스템 프롬프트에 역할극 금지, 자기 소개 제한 등의 지침을 명시해 탈옥 공격 표면을 줄이는 것이 일반적이다.

#보안#프롬프트 공격#가드레일 우회

← AI Wiki에서 더 보기