대규모 AI 학습과 추론을 위해 수십~수천 개의 GPU를 네트워크로 연결한 컴퓨팅 인프라. LLM 사전학습의 필수 기반이다.
GPT-4나 Claude 같은 모델을 학습하려면 단일 GPU로는 불가능하다. 수백~수천 개의 A100, H100 GPU를 고속 인터커넥트(NVLink, InfiniBand)로 연결한 클러스터가 필요하다. 이 클러스터에서 모델을 여러 GPU에 나눠 올리고(텐서 병렬화, 파이프라인 병렬화), 데이터도 나눠 처리(데이터 병렬화)한다.
H100 GPU 하나가 수만 달러이고, 대형 클러스터는 수천 개를 운영하므로 인프라 비용만 수십억 달러에 달한다. 이 때문에 대부분의 스타트업은 클라우드(AWS, GCP, Azure)의 GPU 인스턴스를 빌려 사용한다.
대규모 학습은 AWS의 p4d.24xlarge(A100 8개), p5.48xlarge(H100 8개) 인스턴스를 여러 개 묶어 DeepSpeed나 FSDP로 분산 학습을 구성한다. Slurm이나 Kubernetes로 클러스터를 관리하며, 노드 간 통신에는 NCCL을 사용한다.