구글 클라우드 GKE 팀이 정리한 이달의 GKE 주요업데이트 내용을 알려드리고자 합니다.
LLM 트래픽 관리를 위한 GKE 추론 게이트웨이
새롭게 선보이는 GKE 추론 게이트웨이는 GKE Gateway의 확장 기능으로 생성형 AI 워크로드를 효율적으로 서빙하도록 설계되었습니다. 이 솔루션은 긴 연결 시간이나 예측 불가능한 응답 패턴 같은 LLM 트래픽 고유의 특성을 효과적으로 관리합니다.
GKE 추론 게이트웨이는 LLM 트래픽 특성을 고려하여 지능적으로 관리합니다. 자세히 알아보자면 먼저 최적화된 추론 로드 밸런싱으로 모델 서버의 실시간 상태에 따라 가속기 리소스를 효율적으로 사용하고 요청을 분산합니다. 그리고 동적 LoRA 미세 조정 모델 제공을 지원하여, 여러 미세 조정 모델을 공통 기본 모델에서 운영해 비용 효율성을 높입니다. 다음으로 모델 기반 라우팅 기능으로 추론 요청을 정확히 전달하고, 고급 라우팅 정책으로 모델 버전 관리와 신규 모델 출시 과정을 간소화합니다. 이 밖에도 모델별 제공 중요도를 지정해 중요한 요청을 우선 처리합니다. 마지막으로, 챗봇이나 실시간 번역처럼 지속적인 업데이트가 필요한 서비스를 위해 스트리밍 추론을 완벽하게 지원합니다.
대규모 모델의 효율적인 배포와 관리를 돕는 LeaderWorkerSet API
파라미터가 매우 많은 거대 모델은 여러 노드에 분산하여 배포하고 관리해야 합니다. 이를 위해 Kubernetes 네이티브 API인 LeaderWorkerSet API가 도입되었습니다. 이 API는 여러 파드(Pod)로 구성된 그룹을 하나의 논리적 단위로 취급하여 배포하고 관리하도록 설계되었습니다.
LeaderWorkerSet은 파드 그룹이 마치 하나의 슈퍼 파드처럼 작동하게 합니다. 그룹 내 모든 파드는 병렬로 생성되며 동일한 생명주기를 공유합니다. 리더와 워커로 구성된 그룹을 정의하며, 수평적 확장, 그룹 단위 동적 확장, 롤링 업데이트 등을 지원합니다.
GKE는 LeaderWorkerSet을 활용하여 멀티호스트 환경에서 대규모 AI 모델을 효과적으로 배포하고 서비스합니다. 이는 vLLM과 같은 고성능 모델 서버와 함께 사용되어 GKE의 이점을 최대한 활용할 수 있도록 합니다. 구글 클라우드는 이 API를 DaoCloud와의 파트너십을 통해 구축했으며, LeaderWorkerSet은 Kubernetes에서 대규모 분산 AI 모델을 보다 쉽고 효율적으로 운영할 수 있는 길을 열어주며, GKE의 AI/ML 플랫폼 경쟁력을 강화합니다.
새로운 AI 가속기 지원
GKE는 다양한 최신 가속기를 신속하게 지원하여 AI/ML 워크로드 성능을 극대화하고 있습니다. 먼저 TPU v5e Trillium이 정식 출시되었습니다. TPU v5e는 뛰어난 연산 능력과 대용량 고대역폭 메모리를 제공하며, GKE Standard 모드에서 서빙 및 학습 모두에 최적화되어 활용 가능합니다. 이미 여러 고객이 GKE 기반 TPU를 활용해 추론 지연 시간을 크게 단축하는 성과를 거두고 있습니다.
GPU의 경우 NVIDIA H200 GPU(A3 Ultra 머신)가 정식 출시되어 GKE Standard 노드 풀에서 사용할 수 있습니다. 이전 세대보다 향상된 성능과 확장된 메모리 용량을 제공합니다. NVIDIA B200 GPU(A4 머신)도 정식 출시되어 GKE에서 사용할 수 있게 되었습니다. NVIDIA의 최신 Blackwell 아키텍처 기반 B200 GPU는 이전 세대보다 크게 향상된 연산 능력과 메모리 용량을 제공하며, 구글의 첨단 네트워킹 기술과 결합하여 초고대역폭 환경을 제공합니다. GKE 1.32 이상 버전의 Standard 모드에서 사용하는 것을 권장합니다.
성능 향상
GKE Autopilot의 핵심 개선 사항으로 컨테이너 최적화 컴퓨팅(COC)이 도입되어, 결과 파드 자동 확장(HPA) 성능이 대폭적인 개선되었습니다. 이제 컨테이너 최적화 컴퓨팅을 통해 파드 확장 요청 시 필요한 노드 리소스가 거의 즉시 확보되어 바로 확장할 수 있습니다. 덕분에 Autopilot 사용자는 거의 실시간으로 워크로드를 자동 확장하고, 워크로드 규모를 최적화할 수 있습니다.
Kubernetes의 핵심 자동 확장 기능인 HPA의 속도와 성능도 크게 향상되었습니다. 새로운 Performance HPA 프로파일은 기존보다 2배 이상 빠른 확장 속도와 더 정교한 메트릭 해상도를 제공합니다. 이 기능들은 GKE Autopilot 특정 채널 및 버전 이상 사용자는 별도 설정 없이 무료로 이용할 수 있습니다. 이를 통해 불필요한 초과 할당을 최소화하여 비용을 줄이고, 애플리케이션 응답성을 높여 사용자 경험을 개선하며, 운영 효율성을 증대시키는 여러 이점을 얻을 수 있습니다.
분산된 클러스터를 하나로 통합 관리
멀티클러스터 오케스트레이터(MCO)는 여러 Kubernetes 클러스터에 워크로드를 배포하고 관리하는 복잡한 문제를 해결하기 위해 설계된 새로운 GKE 서비스입니다. MCO는 여러 클러스터의 워크로드를 마치 하나의 단위처럼 관리하며, 특정 하드웨어나 지역이 필요한 워크로드에 대해 최적의 클러스터에 지능적으로 배치하도록 권장 사항을 만듭니다. 또한, 지역 장애 발생 시 다른 지역으로 워크로드를 자동 이전하여 애플리케이션 복원력을 높이고, 기존 GitOps 워크플로와 통합하여 멀티클러스터 배포를 자동화할 수 있습니다.
MCO는 특히 GitOps 중심의 플랫폼 엔지니어링 팀이나 AI/ML 추론 플랫폼 팀에게 유용하며, 현재 공개 프리뷰 상태로 제공됩니다. MCO는 멀티클러스터 환경을 운영하는 기업들에게 비용 효율성, 복원력, 운영 자동화를 실현하는 전략적 플랫폼을 제공합니다.
C4A 머신 타입 지원
C4A 머신 타입은 구글 클라우드가 자체 설계한 ARM 기반 Axion 프로세서를 탑재한 새로운 가상 머신(VM) 옵션입니다. GKE Standard 및 Autopilot 모드 모두에서 사용할 수 있어, 사용자에게 더 넓은 하드웨어 선택 폭과 특정 워크로드에 대한 비용 효율성을 제공합니다.
C4A 머신 타입은 특히 웹 서버, 애플리케이션 서버 등 특정 워크로드에서 뛰어난 가격 대비 성능을 보입니다. 유사한 성능의 x86 기반 인스턴스보다 가격 대비 성능과 에너지 효율성이 모두 더 높습니다. Autopilot 모드에서도 간단한 설정을 통해 C4A 머신 타입에 워크로드를 배치할 수 있으며, 구글이 자체 설계한 고성능 SSD와 함께 사용될 때 더욱 강력한 성능을 발휘합니다. GKE에서 C4A 머신 타입 지원은 비용 최적화, 에너지 효율성 증대, 아키텍처 선택의 유연성을 제공하는 중요한 발전입니다.
로컬 SSD로 스토리지 성능 대폭 향상
GKE 데이터 캐시는 로컬 SSD를 영구 디스크의 캐시 계층으로 지능적으로 활용하여 읽기 중심 애플리케이션의 성능을 크게 높이는 기능으로, 현재 GA로 출시되었습니다.
GKE 데이터 캐시는 자주 접근하는 데이터를 노드에 직접 연결된 저지연 로컬 SSD에 자동 캐시하여 읽기 지연 시간을 크게 줄이고 초당 처리량을 늘립니다. 또한, 기본 스토리지 비용을 최적화하면서 고성능을 달성할 가능성을 제공합니다. 다양한 영구 디스크 유형을 지원하며, 데이터 일관성을 위한 쓰기 모드 선택이 가능합니다.
간단한 설정을 통해 사용할 수 있으며, 실제 성능 향상 사례로 PostgreSQL on GKE는 트랜잭션 처리량이 최대 480% 증가했고, Qdrant(벡터 데이터베이스)는 검색 응답 시간이 최대 10배 빨라졌으며, Coder(웹 기반 IDE)는 Workspace 시작 시간이 최대 600% 향상되었습니다. GKE 데이터 캐시는 성능 향상, 비용 절감, 운영 단순화를 동시에 제공하여 GKE를 핵심 애플리케이션 플랫폼으로 더욱 매력적으로 만듭니다.
더 깊은 통찰력과 유연한 연결
안정적이고 효율적인 클러스터 운영을 위해서는 시스템 내부를 명확하게 들여다볼 수 있는 관측성과 변화하는 요구에 유연하게 대응할 수 있는 네트워킹 환경이 필수적입니다. GKE는 이 두 가지 영역에서도 의미 있는 개선을 이루었습니다.
먼저 GKE 관측성 향상 기능은 사용자가 클러스터와 애플리케이션 상태를 더 효과적이고 직관적으로 파악하고, 문제 발생 시 원인을 신속하게 진단하고 해결하도록 지원합니다.
다음으로 GKE는 이제 NVIDIA DCGM과 통합되어 GPU의 다양한 성능 지표와 사용량을 자동 수집합니다. 이 데이터는 Google Cloud 운영 에이전트를 통해 Cloud Monitoring으로 전송되어, 미리 구성된 대시보드에서 시각적으로 확인할 수 있습니다. 이를 통해 GPU 관련 문제 발생 시 원인을 빠르게 파악하고 해결하며, GPU 자원 활용률을 높여 비용 효율성을 개선합니다.
이 외에도 GKE는 이제 널리 쓰이는 여러 오픈 소스 애플리케이션 및 AI 모델 서버에 대한 Prometheus 메트릭을 자동 수집하고, 해당 애플리케이션 상태를 한눈에 보여주는 대시보드를 자동 생성하는 기능을 제공합니다. 지원 대상에는 메시징, 워크플로, 서비스 메시 분야의 RabbitMQ, Apache Airflow, Istio 같은 인프라 구성 요소뿐 아니라, AI 모델 서버인 vLLM, Text Generation Inference(TGI), TensorFlow Serving, JetStream, NVIDIA Triton, TorchServe 등 다양한 최신 서버가 포함됩니다. 수집된 측정값은 구글 클라우드의 관리형 Prometheus 서비스를 통해 안전하고 확장 가능하게 관리됩니다. 이를 통해 사용자는 모니터링 설정에 드는 시간과 노력을 크게 줄이고 핵심 비즈니스 가치 창출에 더 집중할 수 있습니다.
병목 지점 추적 및 신속한 해결 지원
GKE 관측성 탭에서 새로 제공되는 시작 지연 시간 대시보드는 파드(Pod)나 노드(Node)가 예상보다 느리게 시작될 때, 원인이 노드 자체 문제인지 아니면 파드 시작 과정 특정 단계의 문제인지를 명확히 파악하는 데 큰 도움을 줍니다. 이 대시보드는 워크로드 및 노드 수준에서 상세한 시작 지연 시간 분석 기능을 제공하며, 관련 시스템 이벤트와 연관 지어 지연 시간 변화의 잠재적 원인을 쉽게 추론하도록 지원합니다. 이 기능을 활용하면 서비스 응답 지연 시간을 줄이고 리소스 활용 효율을 높일 수 있습니다.
필요에 따른 자유로운 클러스터 네트워킹
과거에는 GKE 클러스터 네트워킹 설정을 한 번 결정하면 변경하기 어려웠습니다. 하지만 이제 GKE는 네트워킹 구성에서 훨씬 향상된 유연성을 제공합니다. 가장 큰 변화는 클러스터 생성 후에도 주요 네트워킹 설정을 변경할 수 있다는 점입니다. 이제 사용자는 필요에 따라 프라이빗 클러스터를 퍼블릭 클러스터로 또는 그 반대로 전환할 수 있으며, 컨트롤 플레인 접근 방식도 클러스터 운영 중에 변경할 수 있습니다. 더 나아가 각 노드 풀의 퍼블릭 IP 주소 할당 여부를 독립적으로 설정하고 언제든 변경할 수 있습니다. 또한, 기존 IP 주소 기반 엔드포인트 외에 DNS 기반 엔드포인트를 통한 접근을 새로 지원하여 IAM 정책 기반의 유연하고 안전한 접근 제어를 가능하게 합니다. 이러한 연결 유연성 강화는 변화하는 보안 요구사항이나 네트워크 아키텍처 설계에 맞춰 클러스터 네트워킹 구성을 언제든 조정하고, 운영 부담과 잠재적인 서비스 중단 시간을 크게 줄여줍니다.
이번 포스팅에서 소개한 GKE의 새로운 기능은 클라우드 네이티브 여정을 한 단계 발전시킬 강력한 도구라 할 수 있습니다. 이 기능들을 적극적으로 알아보고 실제 워크로드에 적용하여 효과를 직접 경험해 보시길 권합니다. 만약 도움이 필요하다면 메가존소프트로 문의 바랍니다. [도입문의]