Daily Archives: 2026-05-07

You are here:

Google Next 2026 GKE – 02 Standardizing LLM Serving with Inference Gateway

Next & SummitBy 유주 조 2026-05-07

2편: GKE Inference Gateway로 LLM 서빙 표준화 GKE Inference Gateway는 구글 쿠버네티스 엔진(GKE) 위에서 대규모 언어 모델(LLM) 서빙을 표준화하는 추론 최적화 로드밸런서입니다. Google Cloud Next 2026에서 강조된 이 컴포넌트는 vLLM·TGI·JetStream 같은 모델 서버 위에 얹혀, 일반 HTTP 로드밸런서가 보지 못하는 KV 캐시 점유율, 요청 큐 길이, LoRA 어댑터 가용성 같은 추론 고유 신호를 라우팅 결정에…

Google Next 2026 GKE – 01 Overview, The Big Picture

Next & SummitBy 유주 조 2026-05-07

1편 개관: Next 2026 GKE의 큰 그림 Google Cloud Next 2026에서 구글 쿠버네티스 엔진(GKE)은 AI/ML 인프라 자동화를 한 축으로 묶어 발표했습니다. 추론 서빙, 학습 가속, 워크로드 격리, 클러스터 간 통신까지 각 영역에 신기능이 들어왔습니다. 본 글은 시리즈 인덱스로, 이후 본편들이 다룰 신기능 10개를 추론 인프라, 학습 인프라, 보안과 격리, 네트워킹 4축으로 정리합니다. 본편 구성…