수십억 개 이하의 파라미터를 가진 소형 언어 모델. 모바일·엣지 기기에서 실행 가능하고, 특정 도메인에서 대형 모델에 준하는 성능을 낸다.
GPT-4 같은 대형 모델은 클라우드 GPU에서만 실행된다. SLM은 1B~13B 파라미터 수준으로, 노트북이나 스마트폰에서도 로컬 실행이 가능하다. Microsoft의 Phi 시리즈, Apple의 On-Device 모델, Google의 Gemma처럼 고품질 데이터와 증류(distillation) 기법으로 크기 대비 성능을 극대화한 모델들이 주목받는다.
큰 모델이 무조건 좋은 건 아니다. 좁은 도메인 태스크에서는 잘 학습된 SLM이 GPT-4보다 빠르고 저렴하게 더 나은 결과를 낼 수 있다. 프라이버시가 중요한 환경에서 데이터가 외부로 나가지 않는 로컬 실행도 SLM의 강점이다.
Ollama로 Phi-3-mini나 Gemma-2 같은 SLM을 맥북에서 바로 실행할 수 있다. Apple Silicon의 Neural Engine을 활용하면 8B 모델도 상당히 빠른 속도로 응답한다. iOS/Android 앱에 온디바이스 LLM을 내장해 오프라인에서도 작동하는 AI 기능을 구현하는 것도 SLM의 활용 방향이다.