인스트럭션 튜닝 (Instruction Tuning)

모델

인스트럭션 튜닝

Instruction Tuning

사전학습된 모델이 사람의 지시를 따르도록 (지시문, 답변) 쌍으로 추가 학습시키는 과정. 이 과정 없이는 LLM이 질문에 답하지 않고 텍스트를 그냥 이어쓴다.

개념 설명

사전학습만 마친 모델은 "수도는 어디야?"라고 물으면 "수도는 어디야? 수도는 국가의 중심지로..."처럼 텍스트를 이어붙일 뿐이다. 인스트럭션 튜닝은 "이렇게 물으면 이렇게 답하라"는 수천~수십만 개의 예시로 모델을 학습시켜 지시를 따르게 만든다. ChatGPT가 대화하듯 답하는 것이 가능한 이유다.

사용 예시

Llama를 베이스로 자체 도메인 지시 데이터셋을 만들어 SFT(지도 학습 파인튜닝)를 돌리면, 사내 전용 어시스턴트를 만들 수 있다. Alpaca, Dolly 같은 오픈소스 instruction 데이터셋을 활용하는 것도 좋은 시작점이다.

#지시따르기#파인튜닝#정렬

← AI Wiki에서 더 보기