AI 모델이 오작동하도록 의도적으로 설계된 입력을 가하는 공격 기법. 사람의 눈에는 정상적으로 보이지만 모델은 완전히 다르게 인식하게 만드는 미세한 조작이 핵심이다.
딥러닝 모델은 놀랍도록 작은 입력 변화에도 예측이 완전히 바뀔 수 있다. 이미지에 사람이 전혀 알아채지 못할 수준의 노이즈를 추가했는데, 모델이 고양이를 비행기로 분류하는 식이다. 텍스트에서는 특정 단어를 교묘하게 바꾸거나 유니코드 특수 문자를 삽입해 분류기를 속이는 방식이 쓰인다. 자율주행이나 얼굴 인식처럼 안전이 중요한 시스템에서는 실제 위협이 된다.
콘텐츠 모더레이션 모델을 배포할 때, 적대적 공격에 얼마나 강한지 미리 테스트하는 것이 중요하다. 의도적으로 변형된 텍스트나 이미지를 생성해 모델이 이를 통과시키는지 확인하고, 취약한 패턴을 파인튜닝으로 보완한다. 또한 입력 값을 정규화하거나 앙상블 기법을 써서 단일 모델의 취약점을 줄이는 것도 방어 전략이다.