인프라
배치 추론
Batch Inference

실시간 응답 없이 대량의 입력을 모아 한꺼번에 처리하는 LLM 추론 방식. 속도보다 처리량과 비용 효율이 중요한 오프라인 워크로드에 적합하다.

개념 설명

모든 LLM 요청이 즉각적인 응답을 필요로 하지는 않는다. 수백만 개의 문서를 분류하거나, 대규모 데이터셋에 요약을 생성하거나, 야간 리포트를 작성하는 작업은 몇 시간 내에 완료되면 된다. 배치 추론은 이런 요청을 실시간 큐에서 분리해 GPU 활용률이 최대가 되는 방식으로 처리한다. 레이턴시 SLA가 없으므로 스팟 인스턴스를 활용하거나 off-peak 시간대를 이용해 비용을 크게 줄일 수 있다.

Anthropic, OpenAI 모두 배치 API를 제공하며 온디맨드 대비 50% 저렴한 요금을 적용한다.

사용 예시

Anthropic Batch API로 JSONL 파일에 요청을 담아 제출하면 24시간 내에 처리된다. 수십만 개 상품 설명을 동시에 번역하거나, 대규모 로그를 분석해 이상 패턴을 찾는 데이터 파이프라인에서 비용을 절반으로 줄일 수 있다.

#비동기#대용량#비용절감
← AI Wiki에서 더 보기