여러 LLM 공급자에 대한 요청을 중앙에서 관리하며 라우팅, 폴백, 비용 통제를 단일 레이어로 처리하는 인프라 컴포넌트다.
LLM API는 응답 지연이 길고 비용이 토큰 단위로 누적되며 공급자마다 형식이 다르다. AI 게이트웨이는 모든 LLM 트래픽의 단일 진입점으로 라우팅, 폴백, 캐싱, 감사 로그를 중앙에서 집행한다.
Kong은 2024년 최초의 전용 AI 게이트웨이를 출시, Portkey 대비 228% 높은 처리량을 기록했다. 폴백 라우팅으로 GPT-4o 실패 시 Claude로 자동 전환해 서비스를 유지한다. 시맨틱 캐싱은 동일한 질문에 이전 응답을 재사용해 비용을 30~60% 절감한다. 멀티모델 기업들은 간단한 작업은 소형 모델, 복잡한 추론은 대형 모델로 자동 분기하는 지능형 라우팅을 구현하고 있다.