[kakao monthly newsletter_8월호] Compute Engine & Storage

AI workloads with the Google Cloud Managed Lustre HPC 및 AI/ML 워크로드를 위해 설계된 완전 관리형 병렬 파일시스템 서비스   주요 특징 초당 최대 1TB/sec 처리량과 1msec 미만의 매우 낮은 지연시간 수백만 IOPS를 지원하며 용량에 비례하여 성능이 확장되고 유연하게 Scale up/down을 지원 최소 18TiB에서 8PiB 이상 Google Cloud가 Lustre 파일 시스템의 배포, 구성, 모니터링, 패치,…

[kakao monthly newsletter_8월호] VPC & Networking

Networking for AI Data Centers The Networking 101 Google Cloud sheet에 ‘networking for AI Data Centers’가 업데이트   주요 업데이트 Remote Direct Memory Access(RDMA): OS나 CPU의 개입 없이 장치(Computer)간의 메모리에서 메모리로 데이터를 직접 전송하는 기술 인피니밴드(InfiniBand): RDMA 및 클러스터 통신을 위한 고속, 저지연 패브릭 RDMA over Converged Ethernet(RoCE): 이더넷 네트워크를 통해 RDMA 데이터 전송을 가능하게…

[kakao monthly newsletter_8월] BigQuery & Database

BigQuery with the TimesFM foundation model Google Research에서 개발한 최신 시계열 예측 모델인 TimeFM은 4,000억 개에 달하는 방대한 실제 시점 데이터셋을 기반으로 사전 학습된 파운데이션 모델 주요 특징 제로샷(Zero-shot) 예측 : 학습되지 않은 데이터셋에서도 추가적인 훈련 없이 정확한 예측 수행 BigQuery ML 통합 : BigQuery의 기본 ML 모델로, 5억 개의 매개변수를 가지고 있으며 BigQuery 인프라에서…

[kakao monthly newsletter_8월호] Kubernetes (GKE)

GKE Inference Gateway을 통한 고성능 LLM 서빙 구현 GKE와 GKE Inference Gateway를 사용하여 고성능 LLM 서빙을 구현하고 AI관련 메트릭을 인식하는 스마트 라우팅을 통해 기존 로드밸런싱의 한계를 극복 합니다.   GKE Inference Gateway for LLM Serving 특장점 지능형 로드 밸런싱: KV-Cache 활용률과 같은 GPU 관련 메트릭을 포함한 백엔드 용량을 파악하여 요청을 최적화하여 라우팅 AI 인식 자원…