모델 학습이나 RAG에 쓸 데이터를 수집하고 정제하고 선별하는 과정. 데이터 품질이 모델 성능을 결정한다.
"쓰레기를 넣으면 쓰레기가 나온다"는 말이 AI에서 가장 잘 맞는 분야가 데이터다. 데이터 큐레이션은 원시 데이터에서 노이즈, 중복, 편향, 부정확한 레이블을 걸러내고 고품질 데이터만 남기는 과정이다. 파인튜닝용 학습 데이터든, RAG용 문서든, 데이터 품질이 최종 성능을 좌우한다.
고객 지원 로그로 챗봇을 파인튜닝할 때, 전체 로그를 그대로 쓰면 잘못된 답변, 불완전한 대화, 개인정보가 섞인다. 먼저 해결 완료된 케이스만 필터링하고, 답변 품질을 점수로 평가해서 상위 20%만 선별하고, PII를 제거하는 큐레이션 파이프라인을 거쳐야 유효한 학습 데이터가 만들어진다.