안전
모델 붕괴
Model Collapse

AI가 생성한 데이터로 다음 세대 AI를 학습시키면 세대를 거듭할수록 품질이 떨어지는 현상. 인터넷에 AI 콘텐츠가 넘치면서 현실적 위험이 되고 있다.

개념 설명

복사기로 복사한 문서를 다시 복사하면 점점 흐려지듯, AI 생성 텍스트로 학습한 모델이 다시 텍스트를 생성하고 이를 또 학습하면 다양성이 줄고 오류가 증폭된다. 이를 모델 붕괴라 한다. 인터넷의 상당 부분이 이미 AI 생성 콘텐츠로 채워지고 있어, 미래 모델의 사전학습 데이터 오염이 실제 우려 사항이 됐다.

사용 예시

파인튜닝용 합성 데이터를 만들 때 품질 검증 없이 AI 출력을 그대로 쓰면 모델 붕괴가 발생할 수 있다. 실제 인간 데이터를 일정 비율 섞거나, 생성된 데이터를 필터링·큐레이션하는 파이프라인을 거쳐야 한다. 사전학습 데이터에서 AI 생성 콘텐츠를 탐지하고 제거하는 기술도 활발히 연구되고 있다.

#데이터오염#합성데이터#품질저하
← AI Wiki에서 더 보기