GKE Inference Gateway을 통한 고성능 LLM 서빙 구현
GKE와 GKE Inference Gateway를 사용하여 고성능 LLM 서빙을 구현하고 AI관련 메트릭을 인식하는 스마트 라우팅을 통해 기존 로드밸런싱의 한계를 극복 합니다.
GKE Inference Gateway for LLM Serving 특장점
- 지능형 로드 밸런싱: KV-Cache 활용률과 같은 GPU 관련 메트릭을 포함한 백엔드 용량을 파악하여 요청을 최적화하여 라우팅
- AI 인식 자원 관리: 여러 모델을 단일 엔드포인트 뒤에 서빙하는 등 고급 사용 사례를 가능함
- 간소화된 운영 및 보안 옵션
- Cloud Monitoring의 추론 전용 대시보드
- Google Cloud Armor와 Model Armor
- 폭넓은 모델 및 하드웨어 호환성: NVIDIA GPU(L4, A100, H100 등) 및 다양한 AI 모델 지원
배포 워크플로우
- 환경 설정 : Google Cloud 프로젝트 설정, gcloud CLI, kubectl, Helm 설치, 필요한 API 활성화, IAM 권한 구성, 지역 설정 및 Hugging Face 토큰 확보
- GKE 클러스터 자원 생성 : Inference Gateway에 필요한 프록시 전용 서브넷, GKE 표준 클러스터 및 GPU가 있는 가속기 노드 풀 설정
- Inference Gateway CRD 설치 : Gateway API 및 GKE Inference Gateway의 커스텀 리소스 정의(CRD)를 적용
- LLM 추론 서버 배포 : Hugging Face 토큰 시크릿을 생성, 모델(
gemma-3-1b-it
)을 실행하는 vLLM 서버용 Kubernetes Deployment를 정의 및 적용
- Inference Gateway 자원 구성 :
InferencePool
을 생성하여 백엔드 파드를 그룹화,InferenceModel
리소스를 정의
- 설치 검증 : gateway IP 확인 및 curl을 사용하여 endpoint에 요청