데이터
데이터 증강
Data Augmentation

부족한 학습 데이터를 변형하거나 생성해서 늘리는 기법. LLM을 활용한 합성 데이터 생성이 최근 주류가 됐다.

개념 설명

특정 도메인 학습 데이터가 부족하면 파인튜닝 성능이 떨어진다. 데이터 증강은 기존 데이터를 변형(동의어 치환, 역번역, 순서 변경)하거나 LLM으로 유사한 새 예시를 생성해서 데이터를 불려 학습 효과를 높이는 기법이다. 이미지 분류에서 시작된 개념이지만, LLM 시대에는 텍스트 증강과 합성 데이터 생성으로 더 광범위하게 쓰인다.

사용 예시

의료 상담 챗봇을 파인튜닝할 때 실제 상담 데이터가 1,000건뿐이라면, Claude에게 "같은 의도이지만 표현이 다른 질문 10가지를 만들어줘"라고 요청해서 10,000건으로 늘릴 수 있다. 생성된 합성 데이터를 실제 데이터와 섞어 학습하면 다양한 표현 방식에 강건한 모델이 된다.

#학습데이터#데이터부족#합성데이터
← AI Wiki에서 더 보기