2025년 9월에 공개된 구글 클라우드의 Google Kubernetes Engine(GKE) 업데이트 소식을 정리해 보았습니다. 9월 업데이트는 단순한 기능 추가나 패치를 넘어 GKE의 진화 방향을 가늠해 볼 수 있다는 점에서 주목할만 합니다. 이제 주요 내용을 하나하나 알아보겠습니다.
GKE Enterprise 기능의 Standard 통합
9월 업데이트의 가장 중요한 변화는 기존에 GKE Enterprise 구독자에게만 제공했던 기능들을 GKE Standard 티어에 추가 비용 없이 통합한 것입니다. 이에 따라 모든 GKE 사용자가 엔터프라이즈급 거버넌스 도구를 활용할 수 있게 되었습니다.
GKE Standard에서 사용 가능해진 고급 기능은 네 가지입니다. 첫 번째는 플릿 대시보드(Fleet Dashboard)입니다. 이는 여러 클러스터를 단일 창에서 중앙 집중식으로 관찰하고 관리하는 기능을 제공합니다. 두 번째는 Config Sync입니다. 이는 Git 리포지토리를 신뢰할 수 있는 단일 소스로 사용하여 Kubernetes 구성을 관리하는 GitOps 기반의 관리형 도구입니다. 세 번째는 OPA 기반 정책 컨트롤러(Policy Controller)입니다. 이는 OPA Gatekeeper의 관리형 구현체로 모든 Ingress는 TLS 사용이나 root 권한 실행 금지와 같은 조직의 보안 및 규정 준수 정책을 코드로 정의하고 강제 적용합니다. 네 번째는 멀티팀 관리(Multi-team Management)입니다. 이 기능은 공유 클러스터 내에서 여러 팀을 위한 논리적 분리와 리소스 할당을 가능하게 하여 필요한 권한을 안전하게 위임합니다.
이러한 기능 통합은 GKE Standard의 정체성을 근본적으로 바꿉니다. 이전에는 강력한 GitOps나 정책 기반 거버넌스를 구현하기 위해ArgoCD, Kyverno 같은 써드파티 오픈 소스 도구를 직접 설치하고 유지보수해야 하는 부담이 있었습니다. 이는 상당한 운영 오버헤드와 잠재적인 라이선스 비용을 수반했습니다. 구글 클라우드의 이번 업데이트로 GKE Standard를 이용하던 조직은 써드파티 도구에 대한 의존도와 총 소유 비용(TCO)을 낮출 수 있게 되었습니다.
워크로드 안정성 및 효율성 극대화
9월 업데이트 발표에는 서비스 중단을 최소화하고 리소스 사용을 최적화하여 안정성과 비용 효율성을 동시에 잡는 기능들에 대한 소식도 있었습니다. 먼저 VPA In-Place Pod Resize(미리보기) 기능이 있습니다. 기존 VPA(수직형 Pod 오토스케일러)는 CPU나 메모리 추천값을 적용하기 위해 반드시 Pod를 재시작해야 했습니다. 이는 재시작에 민감한 데이터베이스, 캐시 같은 상태 저장 워크로드에는 사실상 적용이 불가능했습니다. 새롭게 공개된 In-Place 기능은 Pod를 재시작하지 않고도 실행 중인 컨테이너의 리소스를 동적으로 조정합니다. 이제 VPA는 InPlaceOrRecreate 업데이트 모드를 제공하여 In-place 리사이즈를 먼저 시도하고 불가능할 경우에만 기존의 재생성 방식으로 대체 작동합니다.
다음으로 노드 드레이닝 타임아웃이 연장되었습니다. 클러스터 오토스케일러가 노드를 축소할 때 해당 노드의 Pod를 다른 곳으로 이동시키는 노드 드레이닝 과정의 타임아웃이 늘어났습니다(GKE 1.32.7 이상). 이는 AI 학습 작업이나 대규모 배치 처리처럼 정상적인 종료(graceful shutdown)에 긴 시간이 필요한 워크로드들이 강제로 종료되지 않고 작업 상태를 안전하게 체크포인트로 저장할 충분한 시간을 확보하게 되었음을 의미합니다.
마지막으로 Standard 클러스터 내 Autopilot 컴퓨트 클래스 기능이 도입되었습니다. 컴퓨트 클래스는 특정 워크로드를 위해 최적화된 하드웨어 및 노드 구성의 집합입니다. 이제 GKE Standard 사용자도 전체 클러스터를 Autopilot으로 마이그레이션하는 부담 없이 특정Pod만 선택적으로 고도로 최적화된 관리형 Autopilot 컴퓨팅 플랫폼에서 실행할 수 있습니다. 사용자는 워크로드 매니페스트에 nodeSelector로 cloud.google.com/compute-class: “Autopilot”을 지정하기만 하면 됩니다.
네트워킹 인프라 확장성의 재정의
9월 업데이트에서는 네트워킹 관련해서도 주목할 내용이 많았습니다. 먼저 멀티 서브넷 클러스터 기능이 정식 출시(GA)되었습니다. VPC 네이티브 GKE 클러스터는 오랫동안 Pod IP를 위해 단일 서브넷에 종속되는 한계가 있었습니다. IP 범위가 고갈되면 클러스터 확장이 중단되는 심각한 문제가 발생했습니다. 이제 이 기능으로 실행 중인 클러스터에 동적으로 새로운 서브넷을 추가할 수 있습니다. 새로 생성되는 노드 풀은 이 추가된 서브넷의 IP 범위를 사용하여 프로비저닝될 수 있습니다.
멀티 서브넷 클러스터 기능도 정식 출시되었습니다. 과거에는 IP 고갈에 대한 두려움 때문에 다양한 워크로드 유형에 맞춰 노드 풀을 동적으로 생성하는 NAP 전략을 도입하기 어려웠습니다. 이제 아키텍트들은 IP 고갈 걱정 없이 NAP를 통해 수많은 종류의 노드 풀을 동적으로 프로비저닝하는 전략을 자신 있게 설계할 수 있게 되었습니다. 한 서브넷이 부족해지면 다른 서브넷을 사용하면 됩니다.
AI/HPC 관련 업데이트
GKE 업데이트에서 AI, HPC까 빠지면 서운하죠. 먼저 하드웨어 및 GPU 부문에서는 A4X VM을 사용할 수 있게 되었습니다. 또한, NVIDIA L4 GPU가 장착된 노드의 시작 시간을 크게 단축하는 Autopilot의 Fast Starting Nodes 기능이 추가되어 GPU 기반 추론 서비스의 확장 응답성이 개선될 것으로 보입니다.
GKE에서 Kubernetes 1.34 버전을 사용할 수 있게 된 점도 빼놓을 수 없습니다. 버전 업데이트 덕분에 GPU 같은 특수 하드웨어를 더 유연하게 요청하는 동적 리소스 할당(DRA) 정식 버전(GA)과, 리소스가 예측 가능한 순서로 삭제되도록 보장하는 순서가 있는 네임스페이스 삭제 같은 보안 강화 기능을 활용할 수 있게 되었습니다.
한편, 스토리지 부문에서는 고가용성을 제공하는 Filestore Regional Tier가 GKE CSI 드라이버에서 공식 지원되어 상태 저장 애플리케이션을 위한 고가용성 공유 스토리지 옵션이 확대되었습니다. 그리고 보안 부문에서는 GKE 노드의 로깅 및 모니터링을 위한 전용 서비스 에이전트(Service Agent)가 도입되어(1.33 이상), 권한 관리가 세분화되고 보안 및 관리 효율성이 강화됩니다.
GKE의 진화 방향을 잘 보여주는 업데이트
GKE의 9월 업데이트는 개별 기능들의 합 이상의 의미를 가집니다. 이번 업데이트는 단순한 웹 서비스부터 가장 까다로운 AI 슈퍼컴퓨팅 작업까지 모든 워크로드를 지원하는 더 접근하기 쉽고 강력하며 견고한 Kubernetes 플랫폼에 대한 구글 클라우드의 비전을 잘 보여줍니다. 따라서 이번 업데이트 내용은 단순히 참조할 것이 아니라 조직의 인프라 운영 전략에 앞으로 어떻게 반영해 나아갈 것인지 진지하게 고민해야 할 것입니다. 전략 수립의 파트너가 필요하시다면? 메가존소프트가 도움을 드리겠습니다.