생성형 AI 기술이 비즈니스 전반에 혁신을 가져오면서, 많은 기업이 거대 언어 모델(LLM)을 활용해 새로운 가치를 창출하고 있습니다. 초기에는 범용 모델 하나로 모든 문제를 해결하려 했지만, 점차 비즈니스의 구체적인 요구 사항에 맞춰 최적화된 여러 모델을 활용하는 전략으로 전환하는 추세입니다.
용도와 목적에 맞게 여러 모델을 조직에서 활용하는 전략이 가능해진 배경에는 ‘미세조정(Fine-tuning)’ 기술의 발전이 자리하고 있습니다. 미세조정이란 범용 모델을 조직의 필요에 맞게 최적화하는 과정입니다. 이 기술은 초기에는 모델의 모든 가중치를 업데이트해야 하는 부담이 있었습니다.
그러던 것이 ‘파라미터 효율적 미세조정(PEFT)’ 기술의 등장과 그 대표적인 기법인 ‘LoRA(Low-Rank Adaptation)’가 나오면서 부담이 내려 놓을 수 있게 되었습니다. LoRA는 기존 모델의 막대한 파라미터는 그대로 두고, 학습 가능한 소규모 ‘어댑터’만 추가하여 훈련하는 방식입니다. 이를 통해 학습할 파라미터 수를 획기적으로 줄여 미세조정 과정을 더 빠르고 경제적으로 만들 수 있습니다. 이런 발전 덕분에 여러 모델을 공유 인프라에서 운영하는 것은 현실성 있는 전략이 되었습니다.
클라우드 컨테이너 환경에서의 AI 추론과 도전 과제
LoRA와 같은 기술로 멀티 모델 전략이 가능해지면서 관심사가 바뀌었습니다. 여러 모델들을 어떻게 효율적으로 운영할 것인가? 이게 관심사가 되었습니다. 그 이유는 무엇일까요? 다른 워크로드와 마찬가지로 AI 역시 컨테이이너 환경이 공유 인프라의 표준입니다. 여러 모델을 배포해 추론 작업을 할 경우 쿠버네티스 기반 컨테이너 환경은 운영 관련 새로운 과제를 안겨줍니다.
문제의 근원은 쿠버네티스의 설계 철학과 LLM 추론 워크로드의 본질적인 불일치에 있습니다. 쿠버네티스는 본래 상태가 없고(stateless) 수명이 짧은 웹 서비스를 위해 설계되었습니다. 반면, LLM 기반 추론 작업은 장시간 실행되고 막대한 자원을 사용하며, 부분적으로 상태를 가지는(partially stateful) 특징이 있습니다. 이러한 근본적인 차이가 효율적인 공유 인프라에서 여러 모델을 배포해 추론 워크로드를 실행하는 데 있어 운영을 어렵게 만드는 원인입니다.
GKE Inference Gateway란?
쿠버네티스 공유 인프라에서 여러 모델을 운영하는 어려움을 해결하기 위해 등장한 기술이 있습니다. 바로 오픈 소스 커뮤니티가 개발한 Kubernetes Gateway API Inference Extension입니다. 구글 클라우드는 이를 GKE 환경에 최적화하여 GKE Inference Gateway를 공개했습니다. 이는 GKE에서 AI 모델의 추론 서비스를 최적화하기 위해 설계된 게이트웨이 확장 기능이라고 이해할 수 있습니다. 간단히 말해 쿠버네티스의 표준 게이트웨이 기능을 GKE 환경에 배포해 운영하는 LLM 추론 워크로드에 맞게 특화한 것입니다. 이는 GKE 클러스터 내에서 L7 부하 분산기처럼 작동하며, 단순한 트래픽 분산을 넘어 모델의 내부 상태까지 파악하여 요청을 처리합니다. 그 결과 지능적인 라우팅, 자동 확장, 안전성 검사와 같은 고급 기능을 통해 AI 애플리케이션의 배포와 관리를 간소화합니다. 즉, 개발자는 기존 쿠버네티스 환경을 그대로 활용하면서도 고성능 AI 서비스를 손쉽게 운영할 수 있습니다.
GKE Inference Gateway의 주요 기능
GKE Inference Gateway는 공유 인프라에서 다중 모델을 운영할 때 발생하는 여러 문제를 해결하기 위해 다음과 같은 핵심 기능을 제공합니다.
- AI에 최적화된 부하 분산을 수행합니다. 기존의 부하 분산기와 달리 게이트웨이가 각 모델 서버의 Key-Value 캐시 활용률이나 대기 중인 요청 수를 실시간으로 파악하여 가장 여유 있는 서버로 요청을 전달합니다. 이 방식을 통해 지연 시간을 단축하고 처리량을 높일 수 있습니다. 이게 가능한 이유는 캐시 적중률을 높여 GPU 같은 가속기 자원을 한층 효율적으로 사용하기 때문입니다.
- 추론 지표에 기반한 자동 확장 기능도 지원합니다. 단순히 요청 수뿐만 아니라, KV 캐시 활용률이나 토큰 대기열 길이 같은 추론 특화 지표를 기준으로 모델 서버(Pod) 수를 자동으로 조절할 수 있습니다. 이를 통해 요청이 급증할 때는 신속하게 자원을 늘려 서비스 품질을 유지하고, 한산할 때는 자원을 줄여 비용을 절감할 수 있습니다.
- LoRA 모델의 동적 서빙에 최적화되어 있습니다. 이 기능을 활용하면 하나의 기본 모델 위에 여러 개의 경량 LoRA 어댑터를 동적으로 탑재하여 동시에 서비스할 수 있습니다. 가령 동일한 GPU에서 영어 분석 모델과 스페인어 분석 모델을 번갈아 가며 사용하는 것이 가능합니다. 덕분에 한정된 가속기 자원에 더 많은 모델을 배치하여 자원 효율과 비용 효율을 극대화할 수 있습니다.
- 모델별 라우팅 및 트래픽 관리가 가능합니다. 게이트웨이가 HTTP 요청 본문을 직접 분석하여, JSON 필드에 지정된 모델 이름을 보고 해당 모델이 있는 서버 그룹으로 정확히 라우팅합니다. 이 기능은 여러 버전의 모델을 A/B 테스트하거나, 특정 모델에만 트래픽을 할당하는 등 유연한 배포 전략을 손쉽게 요청의 중요도에 따른 우선순위 처리 기능을 제공합니다. 모든 요청의 중요도가 같지 않다는 점을 고려하여 중요로 표시된 요청은 지연을 최소화하며 먼저 처리하고, 덜 중요한 배치 작업 등은 시스템 부하가 높을 때 의도적으로 지연시키거나 거부할 수 있습니다. 이를 통해 한정된 자원 안에서도 핵심 서비스의 안정적인 성능을 보장할 수 있습니다.
- AI 보안 및 안전성 기능이 통합되어 있습니다. 게이트웨이 단에서 구글 클라우드의 Model Armor 서비스와 연동하여, 모든 프롬프트와 응답에 대한 유해성 검사 및 민감정보 필터링을 자동으로 수행합니다. 모든 모델에 일관된 보안 정책을 중앙에서 적용하므로, 기업은 안심하고 AI 서비스를 운영할 수 있습니다.
- 추론 트래픽에 특화된 통합 관측성(Observability)을 제공합니다. 모델별 토큰 처리율, 대기열 길이, 캐시 적중률과 같은 상세 지표를 실시간으로 추적하여 서비스의 병목 지점을 찾고 운영을 최적화하는 데 필요한 통찰력을 얻을 수 있습니다.
살펴본 바와 같이 GKE Inference Gateway는 LLM 기반 추론 워크로드 부하 분산부터 자동 확장, 동적 모델 서빙, 보안 및 관측성에 이르기까지, AI 서비스 운영에 필요한 핵심 기능을 하나의 솔루션으로 통합하여 제공합니다. 이를 통해 기업은 인프라의 복잡성에 대한 부담을 덜고, LLM을 활용한 비즈니스 가치 창출에 더욱 집중할 수 있습니다.