모델
DeepSeek

중국 AI 스타트업이 만든 오픈소스 대규모 언어 모델. Mixture of Experts 아키텍처로 GPT-4 대비 1/10 수준의 비용으로 학습하면서도 최상위 모델들과 대등한 추론 성능을 달성해, 오픈소스 LLM의 가능성을 증명했다.

DeepSeek이란

DeepSeek은 2023년 중국 항저우에서 설립된 AI 기업이 만든 오픈소스 대규모 언어 모델 시리즈다. 핵심은 효율성이다. 671B개의 전체 파라미터 중 토큰당 37B만 활성화하는 Mixture of Experts(MoE) 아키텍처를 사용해서, GPT-4가 학습에 1억 달러 이상 썼을 때 DeepSeek-V3는 불과 600만 달러로 비슷한 수준의 성능을 달성했다. MIT 라이선스로 전체 가중치를 공개하기 때문에 누구나 다운받아 로컬에서 돌리거나 상업적으로 활용할 수 있다.

2025년 1월 발표된 DeepSeek-R1은 OpenAI o1에 대응하는 추론 모델이다. 흥미로운 건 DeepSeek-R1-Zero라는 실험 모델인데, 지도학습(SFT) 없이 순수 강화학습만으로 모델이 스스로 사고의 사슬(Chain-of-Thought)을 발전시켰다. 이후 V3.2에서는 국제수학올림피아드(IMO) 금메달 수준의 수학 추론 능력을 달성했다.

사용 예시

가장 간단한 방법은 API를 호출하는 것이다. DeepSeek API는 OpenAI와 호환되는 형식이라, 기존 OpenAI SDK 코드에서 base_url과 API 키만 바꾸면 바로 전환할 수 있다. 비용도 훨씬 저렴해서, 프로토타이핑이나 비용에 민감한 프로젝트에서 GPT-4 대신 드롭인 교체로 쓰는 경우가 많다.

로컬 실행도 강점이다. Ollama에서 ollama run deepseek-r1 한 줄이면 증류된 경량 버전을 로컬에서 돌릴 수 있다. 에어갭 환경이나 프라이버시가 중요한 프로젝트에서 특히 유용하다.

핵심 기술

Multi-head Latent Attention(MLA)은 KV 캐시의 크기를 대폭 줄여서 추론 시 메모리 효율을 높인다. GRPO(Group Relative Policy Optimization)는 기존 RLHF에서 별도의 보상 모델 없이도 강화학습을 수행할 수 있게 한 방법으로, GPU 자원을 크게 절약한다.

주의할 점

중국 기업이라는 점에서 데이터 프라이버시와 검열 관련 우려가 있다. 민감한 데이터를 다룬다면 API보다 로컬 실행이 안전하다. 한국어 성능은 영어·중국어에 비해 떨어질 수 있다.

#오픈소스#MoE#중국AI#추론모델
← AI Wiki에서 더 보기