사전학습된 모델이 사람의 지시를 따르도록 (지시문, 답변) 쌍으로 추가 학습시키는 과정. 이 과정 없이는 LLM이 질문에 답하지 않고 텍스트를 그냥 이어쓴다.
사전학습만 마친 모델은 "수도는 어디야?"라고 물으면 "수도는 어디야? 수도는 국가의 중심지로..."처럼 텍스트를 이어붙일 뿐이다. 인스트럭션 튜닝은 "이렇게 물으면 이렇게 답하라"는 수천~수십만 개의 예시로 모델을 학습시켜 지시를 따르게 만든다. ChatGPT가 대화하듯 답하는 것이 가능한 이유다.
Llama를 베이스로 자체 도메인 지시 데이터셋을 만들어 SFT(지도 학습 파인튜닝)를 돌리면, 사내 전용 어시스턴트를 만들 수 있다. Alpaca, Dolly 같은 오픈소스 instruction 데이터셋을 활용하는 것도 좋은 시작점이다.