모델
추론 모델
Reasoning Model

최종 답변을 내놓기 전에 내부적으로 긴 사고 과정을 거치는 LLM. 수학 증명, 복잡한 코딩 문제처럼 단번에 답하기 어려운 과제에서 일반 모델보다 훨씬 높은 정확도를 보인다.

개념 설명

일반 LLM은 프롬프트를 받으면 곧바로 토큰을 생성하기 시작한다. 추론 모델은 다르다. 답을 쓰기 전에 먼저 내부 사고 토큰(thinking tokens)을 대량으로 생성하며 문제를 단계별로 분해하고, 중간에 스스로 오류를 발견하면 되돌아가 수정하고, 여러 풀이 경로를 탐색한 뒤 최선의 답을 출력한다. 이 과정은 사용자에게 보이지 않거나 별도 블록으로 공개된다.

핵심 원리는 추론 시 컴퓨팅 확장(test-time compute scaling)이다. 학습 데이터나 파라미터를 늘리는 대신, 답을 내놓는 순간에 더 많은 연산을 투입해 성능을 끌어올린다. OpenAI가 2024년 9월 o1을 공개하며 이 패러다임을 처음 대중화했고, DeepSeek-R1, Claude Extended Thinking, Gemini Deep Think 등이 뒤를 이었다.

일반 모델에서 프롬프트로 단계적 추론을 유도하는 Chain-of-Thought(CoT)와 근본적으로 다르다. CoT는 프롬프트 기법이지만, 추론 모델은 강화학습(RL)으로 모델 자체에 사고 능력이 내재화되어 있다. 별도 프롬프트 없이도 스스로 탐색하고 검증한다.

사용 예시

Anthropic API에서 Claude의 Extended Thinking을 사용할 때는 thinking 파라미터에 budget_tokens를 설정한다. 복잡한 알고리즘 설계라면 budget_tokens: 10000처럼 높게 잡으면 모델이 더 긴 내부 추론을 거쳐 답을 낸다. 단순 요약이라면 예산을 낮추거나 일반 모드를 쓰는 것이 비용과 속도 면에서 유리하다.

실무에서 추론 모델이 빛을 발하는 장면은 코드 디버깅, 수학 증명, 다단계 계획 수립처럼 한 번에 답하기 어려운 과제다. 멀티에이전트 워크플로우에서는 오케스트레이터 역할에 추론 모델을 두고, 실제 실행 단계는 빠른 일반 모델에 위임하면 비용과 품질 모두를 챙길 수 있다.

심화 내용

DeepSeek-R1은 순수 강화학습만으로 추론 능력을 획득한 사례로 주목받았다. 별도의 CoT 정답 데이터 없이 모델이 스스로 사고 패턴을 발전시켰고, 이 과정에서 자연스럽게 <think> 태그 안에 중간 추론을 담는 구조가 등장했다. 또한 대형 추론 모델을 교사로 삼아 소형 모델을 지식 증류(distillation)하는 방식도 빠르게 확산되어, 저비용 추론 모델 생태계가 형성되고 있다.

주의할 점

추론 모델은 응답 지연이 크다. 사고 과정에서 토큰을 대량 소비해 API 비용이 일반 모델보다 수 배~수십 배에 달할 수 있다. 단순한 질문에 과도한 추론 예산을 주면 오히려 불필요한 경로를 탐색해 답변이 장황해지는 과잉 추론(overthinking) 현상이 나타날 수 있다. 과제의 복잡도에 맞게 적절한 추론 예산을 설정하는 것이 중요하다.

#test-time compute#OpenAI o1#extended thinking
← AI Wiki에서 더 보기