데이터
합성 데이터
Synthetic Data

실제 데이터 대신 AI나 알고리즘으로 만든 인공 데이터. 개인정보 걱정 없이 학습 데이터를 대량 생산할 수 있어서, 최근 LLM 학습의 핵심 재료가 되고 있다.

합성 데이터란

AI를 학습시키려면 데이터가 필요한데, 현실의 데이터는 구하기 어렵거나 개인정보가 섞여 있거나 양이 부족한 경우가 많다. 합성 데이터는 이 문제를 우회하는 방법이다. 실제 데이터의 통계적 특성을 유지하면서도 완전히 새로 만들어낸 인공 데이터로, 원본에 있던 개인정보는 포함되지 않지만 분포와 패턴은 그대로 살아 있다.

사용 예시

가장 주목받는 활용은 LLM 학습이다. Microsoft의 Phi 시리즈가 대표적인데, 웹에서 크롤링한 데이터 대신 교과서처럼 구조화된 합성 데이터로 학습해서 작은 모델로도 높은 성능을 뽑아냈다. 강한 모델이 생성한 추론 과정이나 대화를 약한 모델의 학습 데이터로 쓰는 증류(Distillation) 방식도 합성 데이터의 한 형태다.

RLHF에서도 합성 데이터가 빠르게 자리잡고 있다. 사람이 일일이 선호도를 매기는 대신, AI가 생성한 응답 쌍을 다른 AI가 평가하는 AI 피드백(RLAIF) 방식으로 학습 데이터를 만든다. 개인정보 보호가 중요한 의료나 금융 분야에서는 환자 데이터를 합성 데이터로 대체하면 GDPR 같은 규정을 준수하면서도 모델을 학습시킬 수 있다.

주의할 점

합성 데이터로만 학습하면 모델 붕괴(Model Collapse) 위험이 있다. AI가 만든 데이터로 AI를 학습시키고, 그 AI가 다시 데이터를 만드는 과정이 반복되면 원본 데이터의 다양성이 점점 사라진다. 2024년 Nature에 발표된 연구가 이 문제를 구체적으로 입증해서 큰 주목을 받았다. 합성 데이터는 실제 데이터를 대체하는 게 아니라 보완하는 도구로 쓸 때 가장 효과적이다.

#데이터생성#프라이버시#LLM학습
← AI Wiki에서 더 보기