모델
자기 지도 학습
Self-Supervised Learning

정답 라벨 없이 데이터 자체에서 학습 신호를 만들어내는 방법. LLM의 "다음 토큰 예측"이 대표적 자기 지도 학습으로, 수십억 개의 레이블 없는 텍스트를 그대로 학습 데이터로 쓸 수 있다.

개념 설명

사람이 일일이 라벨을 붙여야 하는 지도 학습과 달리, 자기 지도 학습은 데이터 내에 숨겨진 구조를 문제로 삼는다. "다음 단어 예측"은 글 자체가 정답이고, "가려진 단어 맞추기"도 마찬가지다. 이 덕분에 인터넷에 존재하는 모든 텍스트를 라벨링 비용 없이 학습 데이터로 활용할 수 있다. 현대 LLM이 수조 개의 토큰으로 학습될 수 있는 이유다.

텍스트뿐 아니라 이미지(MAE — Masked Autoencoder), 오디오(wav2vec), 비디오 등 다양한 모달리티에서도 같은 원리가 적용된다.

사용 예시

Llama, Mistral 등 오픈소스 모델의 사전학습은 모두 자기 지도 학습 방식이다. 도메인 특화 모델을 만들 때 해당 분야의 논문, 문서, 코드를 모아 레이블 없이 지속적 사전학습을 하면 전문성이 올라간다. HuggingFace의 DataCollatorForLanguageModeling이 이 학습 방식을 지원한다.

#레이블없음#사전학습#표현학습
← AI Wiki에서 더 보기