Skip to content
Google Cloud 프리미어 파트너 메가존소프트
GCP(Google Cloud Platform), GWS(Google Workspace) 도입 컨설팅 및 상담
Google Cloud 프리미어 파트너 메가존소프트
  • Google Cloud
    • Professional Service
    • Implementation Service
    • Managed Service
    • Consolidated Billing Service
    • Cloud Migration Service
  • Google Workspace
    • 소통
      • Gmail
      • Calendar
      • Meet
      • Chat
    • 협업
      • ChromesOS & Google Meet H/W
      • Docs
      • Sheets
      • Slides
      • Forms
      • Sites
      • Drive
    • 데이터인사이트
      • App sheets
      • Connected sheet
    • 보안/관리
      • Vault
      • Management Console
      • Security
    • 가격
  • 일반 고객 사례
    • 일반 고객사례
    • Cloud Migration 고객사례
    • Managed Service 사례
    • Application Development 사례
  • 세미나
  • 블로그
  • Google Cloud
    • Professional Service
    • Implementation Service
    • Managed Service
    • Consolidated Billing Service
    • Cloud Migration Service
  • Google Workspace
    • 소통
      • Gmail
      • Calendar
      • Meet
      • Chat
    • 협업
      • ChromesOS & Google Meet H/W
      • Docs
      • Sheets
      • Slides
      • Forms
      • Sites
      • Drive
    • 데이터인사이트
      • App sheets
      • Connected sheet
    • 보안/관리
      • Vault
      • Management Console
      • Security
    • 가격
  • 일반 고객 사례
    • 일반 고객사례
    • Cloud Migration 고객사례
    • Managed Service 사례
    • Application Development 사례
  • 세미나
  • 블로그

Daily Archives: 2026-05-08

You are here:
  1. Home
  2. 2026
  3. 5월
  4. 08

Google Next 2026 GKE – 04 Startup Acceleration and Intent-Based Autoscaling

Next & SummitBy 유주 조2026-05-08

4편: 시작 가속과 의도 기반 오토스케일링 LLM 서빙 Pod의 라이프사이클은 두 시점에서 갈립니다. 새 Pod이 처음 트래픽을 받기까지 걸리는 시간과, 트래픽 변화에 맞춰 복제본 수를 조절하는 판단 시점입니다. 구글 쿠버네티스 엔진(GKE)은 Google Cloud Next 2026에서 이 두 시점을 함께 다루는 기능을 발표했습니다. 컨테이너 이미지와 모델 가중치를 빠르게 끌어오는 시작 가속 기술, 그리고 GPU 사용률 같은…

Google Next 2026 GKE – 03 KV Cache Tiering and Memory Hierarchy

Next & SummitBy 유주 조2026-05-08

3편: KV 캐시 티어링과 메모리 계층화 키-값 캐시(KV 캐시)는 대규모 언어 모델(LLM) 서빙에서 그래픽 처리 장치(GPU) 메모리를 가장 빠르게 갉아먹는 자원입니다. 입력 시퀀스가 길어질수록 self-attention이 저장하는 키와 값의 크기가 비례해 늘어나고, 같은 GPU에 올릴 수 있는 동시 요청 수는 줄어듭니다. 본 글은 이 KV 캐시를 GPU의 고대역폭 메모리(HBM)에서 하위 저장소로 끌어내려 처리량을 끌어올리는 메모리 계층화…

Google Cloud 프리미어 파트너 메가존소프트
Copyright ⓒ 2022 MegazoneSoft. All Right Reserved.
Go to Top