AI 산업의 중심이 모델을 ‘학습’시키는 단계를 지나 학습한 모델을 현실 세계에 적용해 비즈니스 가치를 만드는 ‘추론(inference)’ 단계로 빠르게 옮겨가고 있습니다. 실제 서비스 단계로 넘어 가면서 추론 비용이 큰 부담으로 다가오고 있습니다. 실제로 AI 모델 추론에 드는 컴퓨팅 비용이 학습 비용을 넘어서는 사례가 하나둘 보고되고 있습니다. 이런 이유로 요즘 비용 효율적이며 동시에 프로덕션 환경이 요구하는 유연한 확장성까지 겸비한 추론 인프라에 대한 관심이 높아지고 있습니다.
생성형 AI가 가져온 새로운 패러다임과 기술 장벽
거대 언어 모델(LLM)의 등장은 추론 워크로드의 규모와 성격을 근본적으로 바꾸면서 기존 시스템으로는 감당하기 어려운 새로운 과제를 안겨주었습니다. 먼저 모델의 크기가 매우 큽니다. LLM은 수천억 개에 달하는 매개변수(parameter) 때문에 추론 시 막대한 메모리와 연산 능력을 필요로 합니다. 다음으로 연산 패턴이 독특합니다. LLM 추론은 입력 프롬프트를 처리하는 프리필(prefill) 단계와 출력을 생성하는 디코드(decode) 단계로 나뉩니다. 이 과정은 처리 시간이 길고 GPU 자원 의존도가 매우 높아 단순한 로드밸런싱 기법으로는 트래픽을 효과적으로 분산하기 어렵습니다.
이 외에도 기존의 자원 확장 방식이 비효율적입니다. 성능 병목 현상이 GPU 메모리 대역폭이나 초당 토큰 생성률 같은 특수 지표에서 발생하므로 일반적인 자동 확장(autoscaling)은 비효율과 비용 낭비를 유발할 수 있습니다. 이처럼 훈련을 마친 모델을 안정적이고 확장성 있는 추론 서비스로 전환하려면 여러 분야에 걸친 깊은 전문 지식이 필요합니다. 문제는 대규모 추론 서비스를 위한 분산 시스템을 구축하고 운영할 엔지니어가 매우 부족하다는 것입니다.
GKE, AI 추론을 위한 최적의 선택
최근 추론 워크로드 처리 관련 복잡한 문제들을 해결할 최적의 플랫폼으로 Goole Cloud의 GKE(GKE)가 주목받고 있습니다. 그 이유를 알아보겠습니다. GKE는 뛰어난 가격 대비 성능을 제공합니다. NVIDIA L4, A100/H100 GPU부터 Google TPU까지 다양한 가속기를 지원하며, 커스텀 컴퓨트 클래스(Custom Compute Classes)와 노드 자동 프로비저닝(NAP) 기능으로 추론 워크로드에 필요한 하드웨어를 지능적으로 자동 할당합니다. 덕분에 값비싼 가속기 자원풀을 항상 유지할 필요 없이 필요한 순간에만 자원을 할당받아 비용을 최적화할 수 있습니다.
또한, 신속한 배포와 최신 모범 사례를 지원합니다. GKE는 생성형 AI 지원 기능을 통해 AI 추론에 특화된 모범 사례와 검증된 구성을 제공합니다. GKE Inference Quickstart와 같은 도구를 사용하면 복잡한 환경 설정 없이도 검증된 방식에 따라 모델을 빠르게 배포하여 AI 추론 기반 서비스나 기능 출시 시간을 단축할 수 있습니다.
지능적인 자동 확장 기능 역시 큰 장점입니다. GKE의 수평 Pod 오토스케일링(HPA)은 일반적인 CPU 사용량을 넘어, 초당 쿼리 수(QPS)나 응답 지연 시간(latency) 같은 실제 추론 지표를 기반으로 자원을 확장합니다. 이는 실제 비즈니스 수요에 맞춰 탄력적으로 대응하게 해주며 ‘사용한 만큼만 지불’하는 클라우드의 장점을 살립니다.
모델 로딩 속도도 획기적으로 개선합니다. 수십 기가바이트(GB)에 달하는 거대 모델의 컨테이너 이미지는 서비스 시작 시간을 지연시키는 주된 원인입니다. GKE는 GCS FUSE를 통한 이미지 스트리밍 기술로 컨테이너 이미지의 모델 파일을 백그라운드에서 읽어오면서 서비스 시작 시간을 줄입 니다. 이를 통해 갑작스러운 수요 급증에도 훨씬 민첩하게 대응할 수 있습니다.
다른 특징으로 오픈소스 표준을 기반으로 구축되어 특정 클라우드에 종속되지 않는 유연한 배포가 가능하다는 것을 꼽을 수 있습니다. GKE는 Ray, NVIDIA Triton, Hugging Face 등 다양한 AI 도구와 모델 리포지토리와 원활하게 연동할 수 있습니다.
한편, GKE가 추론 워크로드를 위한 선택이라고 꼽는 이유 중 하나로 GKE Inference Gateway를 빼놓을 수 없습니다. 이 게이트웨이는 KV 캐시 사용률이나 대기 중인 요청 수와 같은 모델 서버의 내부 상태를 직접 확인합니다. 이를 통해 실제로 요청을 처리할 여력이 있는 서버로만 트래픽을 지능적으로 전달하여 시스템 전체의 지연 시간 증가를 막고 성능을 극대화합니다.
GKE 추론 참조 아키텍처
Google Cloud는 GKE의 장점을 극대화하고 AI 추론 서비스 구축을 돕기 위해 GKE 추론 참조 아키텍처를 제공합니다. 이 아키텍처는 AI 추론 플랫폼을 위한 ‘모범 사례의 집약체’이자 ‘완벽한 설계도’라고 할 수 있습니다. 참조 아키텍처는 크게 다음과 같이 두 개의 계층으로 구성합니다.
-
GKE 기반 플랫폼: 첫 번째 계층은 모든 가속화 워크로드를 위한 견고하고 안전한 토대를 마련합니다. Terraform을 활용한 코드형 인프라(IaC) 원칙에 따라, 자동화된 반복 배포를 보장하고 일관성과 버전 관리를 지원합니다. 또한, 프라이빗 클러스터와 쉴드 노드(Shielded Nodes) 같은 보안 모범 사례와 고가용성 구성이 기본적으로 적용되며 Google Cloud의 다양한 운영 서비스 및 기능과 통합되어 인프라와 애플리케이션에 대한 깊이 있는 가시성을 제공합니다.
-
GKE 추론 엔진: 두 번째 계층은 기반 플랫폼 위에 구축되어 모델 서빙의 고유 과제를 해결합니다. 여기에는 앞서 설명한 노드 자동 프로비저닝(NAP), 커스텀 HPA, 이미지 스트리밍과 같은 GKE의 핵심 기능을 활용하여 성능과 비용의 균형을 맞추는 최적화 방안이 포함됩니다. 또한, 실시간 온라인 추론, 배치 오프라인 추론, 스트리밍 추론 등 다양한 서비스 패턴을 모두 지원하도록 설계되었습니다. 나아가 최신 LLM 기반 추론 서비스 운영에 필수적인 고급 최적화 기법에 대한 가이드와 통합 기능을 제공하여 사용자들이 복잡한 모델을 직접 최적화하는 부담을 덜고도 고성능 추론 서비스를 구축하게 돕습니다.
주요 모델 최적화 기법
GKE 추론 참조 아키텍처에서 제시하는 모델 최적화 기법은 GKE의 일부로 통합되어 있습니다. 이는 전문가의 지식과 모범 사례를 구현해 프로덕션 수준의 추론 서비스를 위한 인프라 구축과 운영 부담을 줄일 수 있도록 돕기 위한 Google Cloud의 배려라 할 수 있습니다. GKE 추론 참조 아키텍처에서 제시하는 주요 모델 최적화 기법은 다음과 같습니다.
먼저 양자화(Quantization)는 모델의 크기와 메모리 요구사항을 줄이는 기술입니다. 모델 가중치의 정밀도를 낮추는 방식으로 작동하며 이를 통해 추론 속도를 높이고 메모리 사용량을 줄일 수 있습니다. 덕분에 더 작고 저렴한 GPU를 사용하면서도 비용 효율성을 높일 수 있는 장점이 있습니다. GKE 참조 아키텍처는 vLLM이나 TGI와 같은 서빙 프레임워크에 내장된 양자화 기능을 쉽게 활용할 수 있도록 관련 배포 예제를 제공합니다.
다음으로 텐서 병렬 처리(Tensor Parallelism)는 단일 GPU의 메모리에 담기 힘든 거대한 모델의 가중치를 여러 GPU에 나누어 처리하는 방식입니다. 이 기법을 사용하면 수백억에서 수천억 개에 달하는 매개변수를 가진 초대형 모델도 안정적으로 서비스할 수 있으며 전체적인 처리량도 높일 수 있습니다. GKE 추론 참조 아키텍처는 vLLM, TGI 등이 다중 GPU 환경에서 이 기능을 자동으로 활성화할 수 있도록 다중 GPU 노드 풀 구성 및 배포 예제를 포함하여 복잡한 설정을 간소화합니다.
KV 캐시 최적화는 LLM의 디코딩(decoding) 단계에서 발생하는 중복 계산을 피하기 위한 기술입니다. 어텐션(attention) 계층의 핵심 값(Key/Value)을 캐시에 저장하고 메모리 사용량을 최적화하여 효율을 높입니다. 이 기술은 처리량을 대폭 향상시켜 동일한 GPU에서 더 많은 동시 요청을 처리하게 해줍니다. GKE 추론 참조 아키텍처는 PagedAttention을 핵심 기능으로 내장한 vLLM의 사용을 기본으로 권장해 사용자가 이러한 최적화를 쉽게 적용하도록 돕습니다.
마지막으로 플래시 어텐션(Flash Attention)은 어텐션 연산을 수행할 때 GPU 메모리(HBM)와 온칩 캐시(SRAM) 간의 데이터 이동을 최소화하는 I/O 인식 알고리즘입니다. 이를 통해 GPU 메모리 병목 현상을 완화하고, 학습 및 추론 속도를 크게 향상시킬 수 있습니다. 단, 이 기술은 NVIDIA Ampere 아키텍처 이상과 같은 특정 최신 GPU에서만 지원된다는 제약이 있습니다. GKE는 해당 기술을 지원하는 최신 GPU를 제공하며 아키텍처에 포함된 최신 버전의 vLLM 및 TGI는 FlashAttention-2와 같은 최적화된 어텐션 구현을 자동으로 활용하므로 사용자는 별도 설정 없이 성능 향상 효과를 누릴 수 있습니다.
프로덕션 환경에서 성공적으로 추론 서비스를 제공하는 지름길
AI 혁명의 기회를 현실로 만들려면 프로덕션 추론이라는 엔지니어링 과제를 반드시 넘어야 합니다. GKE 추론 참조 아키텍처는 이러한 과제에 대한 명확한 해답이자, 프로덕션 AI 성공을 위한 포괄적이고 자동화된 청사진을 제공합니다. Google Cloud Accelerated Platforms GitHub 저장소에서 인프라 배포를 위한 Terraform 코드, 상세 문서, 그리고 ComfyUI 배포 같은 다양한 실용 예제를 포함한 모든 리소스를 확인하실 수 있습니다.