사전학습 (Pretraining)

모델

사전학습

Pretraining

방대한 텍스트 데이터로 언어의 기본 패턴과 지식을 학습하는 단계. 파인튜닝 이전에 모델의 기본 역량을 만드는 과정으로, LLM 개발 비용의 대부분을 차지한다.

개념 설명

인터넷 텍스트, 책, 코드 등 수조 개 토큰으로 "다음 단어 맞추기"를 반복하면 모델은 자연스럽게 문법, 사실, 추론 능력을 갖추게 된다. 사전학습은 이 과정이다. GPT-4 수준의 모델을 사전학습하는 데 수천억 원의 컴퓨팅 비용이 들기 때문에, 대부분의 개발자는 이미 사전학습된 모델을 받아 쓴다.

사용 예시

Llama 같은 오픈소스 모델을 다운받아 도메인 특화 데이터로 지속 사전학습(continued pretraining)을 하면, 의료·법률 같은 전문 분야에서 성능을 높일 수 있다. 이후 SFT와 RLHF로 사용자 지시를 따르도록 정렬 과정을 거친다.

#기초학습#대규모데이터#언어모델

← AI Wiki에서 더 보기