Google Next 2026 GKE – 03 KV Cache Tiering and Memory Hierarchy
3편: KV 캐시 티어링과 메모리 계층화 키-값 캐시(KV 캐시)는 대규모 언어 모델(LLM) 서빙에서 그래픽 처리 장치(GPU) 메모리를 가장 빠르게 갉아먹는 자원입니다. 입력 시퀀스가 길어질수록 self-attention이 저장하는 키와 값의 크기가 비례해 늘어나고, 같은 GPU에 올릴 수 있는 동시 요청 수는 줄어듭니다. 본 글은 이 KV 캐시를 GPU의 고대역폭 메모리(HBM)에서 하위 저장소로 끌어내려 처리량을 끌어올리는 메모리 계층화…



![[MZS] Next 26 Recap_SNS banner](https://www.megazonesoft.com/wp-content/uploads/2026/05/MZS-Next-26-Recap_SNS-banner-768x768.jpg)




