LLM 모델과 실행 엔진을 하나의 파일로 패키징해서, 설치 없이 더블클릭만으로 로컬에서 AI를 돌릴 수 있게 만든 Mozilla의 오픈소스 도구.
보통 로컬에서 LLM을 돌리려면 Python 환경 세팅, 의존성 설치, 모델 다운로드, 설정 파일 수정 같은 과정을 거쳐야 한다. llamafile은 이 모든 걸 하나의 실행 파일로 합쳐 버린다. 모델 가중치와 추론 엔진(llama.cpp)이 하나의 파일 안에 들어 있어서, 다운로드 → 실행 권한 부여 → 실행. 이 세 단계면 끝이다.
핵심 기술은 Cosmopolitan Libc다. 하나의 바이너리가 macOS, Windows, Linux 등 6개 운영체제에서 그대로 실행되는 Actually Portable Executable(APE) 포맷을 구현한다.
Hugging Face에서 원하는 모델의 llamafile을 받아서 터미널에서 chmod +x 후 실행하면, 로컬 웹 서버가 뜨면서 브라우저에서 바로 채팅할 수 있다. GPU를 자동으로 감지해서 가속도 알아서 건다.
API 서버로도 쓸 수 있다. llamafile을 서버 모드로 띄우면 OpenAI 호환 REST API가 열려서, 기존에 OpenAI API를 쓰던 코드를 엔드포인트만 바꿔서 로컬 모델로 전환할 수 있다. 파일 하나를 USB에 담아서 인터넷 없는 환경에 가져가도 돌아간다.
모델과 엔진이 하나로 묶여 있어서 파일 크기가 수 GB에 달한다. 모델을 자주 바꾸는 개발 환경이라면 Ollama처럼 모델을 분리 관리하는 도구가 더 편할 수 있다.