대규모 데이터로 사전학습되어 다양한 태스크에 파인튜닝이나 프롬프팅으로 적응할 수 있는 범용 모델. GPT-4, Claude, Llama가 대표적이다.
2021년 Stanford HAI가 만든 용어로, 대규모 데이터로 사전학습된 후 다양한 다운스트림 태스크의 기반(foundation)으로 사용되는 모델을 뜻한다. 특정 태스크만 하는 전통적 모델과 달리, 파운데이션 모델은 번역, 요약, 코드 작성, 질문 답변을 모두 할 수 있다. 이 하나의 모델에 파인튜닝이나 프롬프팅을 더해 수백 가지 애플리케이션을 만드는 패러다임이 현재 AI 산업의 기반이다.
텍스트 모델뿐 아니라 이미지(CLIP, Stable Diffusion), 코드(Codex), 과학(AlphaFold) 등 다양한 도메인의 파운데이션 모델이 있다.
Claude API, OpenAI API처럼 파운데이션 모델을 서비스로 호출해 프롬프팅으로 다양한 태스크를 처리하거나, Llama 같은 오픈소스 파운데이션 모델을 내려받아 SFT로 특정 용도에 맞게 커스터마이즈한다. 기업들이 자체 LLM을 만드는 비용보다 파운데이션 모델을 파인튜닝하는 비용이 압도적으로 낮다.