AI 모델이 훈련 데이터나 설계 방식의 영향으로 특정 집단에 대해 불공정하거나 왜곡된 결과를 내는 현상. 의도치 않더라도 차별적 결과를 낳을 수 있어 배포 전 검증이 중요하다.
AI는 데이터에서 패턴을 학습하는데, 그 데이터 자체가 이미 사회적 편견을 담고 있다면 모델도 그 편견을 그대로 학습한다. 예를 들어 채용 모델이 과거 채용 기록으로 훈련됐다면 특정 성별이나 인종에 불리하게 작동할 수 있다. 이는 개발자의 의도와 무관하게 데이터에서 자동으로 흡수되는 문제라 더 까다롭다.
모델을 배포하기 전에 성별, 연령, 인종 등 민감한 속성별로 출력이 어떻게 달라지는지 Eval을 통해 측정한다. 편향이 발견되면 데이터 재샘플링, 파인튜닝, 또는 후처리 필터로 완화한다. 이미지 생성 모델에서는 특정 직업이나 역할에 어떤 외모가 생성되는지 정기적으로 감사하는 것이 좋은 관행이다.