2026-05-08 - Google Cloud 프리미어 파트너 메가존소프트

Google Next 2026 GKE – 05 Accelerator Networking with NCCL, gIB, and A4X

Next & SummitBy 유주 조 2026-05-08

5편: 가속기 네트워킹, NCCL과 gIB와 A4X 대규모 학습은 가속기 한 장이 아니라 수백·수천 장이 함께 한 모델을 학습합니다. 이때 GPU 사이의 통신이 학습 시간을 결정합니다. AllReduce 한 단계가 길어지면 매 스텝마다 그만큼이 누적되고, 결국 토큰당 학습 비용이 올라갑니다. AI Hypercomputer는 이 통신 경로를 하드웨어와 소프트웨어 양쪽에서 손봤습니다. 본 글은 GPU-to-GPU 트래픽을 떠받치는 Rail-aligned 토폴로지, NCCL과…

Google Next 2026 GKE – 04 Startup Acceleration and Intent-Based Autoscaling

Next & SummitBy 유주 조 2026-05-08

4편: 시작 가속과 의도 기반 오토스케일링 LLM 서빙 Pod의 라이프사이클은 두 시점에서 갈립니다. 새 Pod이 처음 트래픽을 받기까지 걸리는 시간과, 트래픽 변화에 맞춰 복제본 수를 조절하는 판단 시점입니다. 구글 쿠버네티스 엔진(GKE)은 Google Cloud Next 2026에서 이 두 시점을 함께 다루는 기능을 발표했습니다. 컨테이너 이미지와 모델 가중치를 빠르게 끌어오는 시작 가속 기술, 그리고 GPU 사용률 같은…

Google Next 2026 GKE – 03 KV Cache Tiering and Memory Hierarchy

Next & SummitBy 유주 조 2026-05-08

3편: KV 캐시 티어링과 메모리 계층화 키-값 캐시(KV 캐시)는 대규모 언어 모델(LLM) 서빙에서 그래픽 처리 장치(GPU) 메모리를 가장 빠르게 갉아먹는 자원입니다. 입력 시퀀스가 길어질수록 self-attention이 저장하는 키와 값의 크기가 비례해 늘어나고, 같은 GPU에 올릴 수 있는 동시 요청 수는 줄어듭니다. 본 글은 이 KV 캐시를 GPU의 고대역폭 메모리(HBM)에서 하위 저장소로 끌어내려 처리량을 끌어올리는 메모리 계층화…

Daily Archives: 2026-05-08

Google Next 2026 GKE – 05 Accelerator Networking with NCCL, gIB, and A4X

Google Next 2026 GKE – 04 Startup Acceleration and Intent-Based Autoscaling

Google Next 2026 GKE – 03 KV Cache Tiering and Memory Hierarchy