로컬에서 LLM을 한 줄 명령으로 실행할 수 있게 해주는 도구. Docker가 컨테이너를 쉽게 만들듯, Ollama는 LLM을 쉽게 돌린다.
오픈 웨이트 모델을 로컬에서 실행하려면 원래 모델 다운로드, 양자화, 서빙 설정 등 복잡한 과정이 필요했다. Ollama는 ollama run llama3 한 줄이면 모델 다운로드부터 서빙까지 알아서 처리한다. llama.cpp 기반으로 CPU와 GPU 모두 지원하며, Apple Silicon에서 특히 잘 최적화되어 있다.
맥북에서 ollama run gemma3으로 로컬 AI를 바로 쓸 수 있다. OpenAI 호환 API를 제공해서 기존 코드의 base_url만 http://localhost:11434로 바꾸면 로컬 모델로 전환된다. API 비용 없이 실험하거나, 민감 데이터를 외부로 보내지 않아야 하는 환경에서 핵심 도구다.