Networking for AI Data Centers
The Networking 101 Google Cloud sheet에 ‘networking for AI Data Centers’가 업데이트
주요 업데이트
- Remote Direct Memory Access(RDMA): OS나 CPU의 개입 없이 장치(Computer)간의 메모리에서 메모리로 데이터를 직접 전송하는 기술
- 인피니밴드(InfiniBand): RDMA 및 클러스터 통신을 위한 고속, 저지연 패브릭
- RDMA over Converged Ethernet(RoCE): 이더넷 네트워크를 통해 RDMA 데이터 전송을 가능하게 하는 프로토콜
- NVIDIA Collective Communications Library(NCCL): NVIDIA에서 개발한 여러 GPU 및 노드간 집합 통신을 구현한 라이브러리
- NVLink: NVIDIA NVLink는 기존 PCIe보다 훨씬 빠른 다중 GPU 데이터 및 제어 코드 전송을 위한 고속 GPU 인터커넥트
- Tensor Processing Unit(TPU): Google에서 설계한 ASIC으로 AI/ML 워크로드(학습 및 추론)에 특화된 하드웨어 가속기
- Graphic Processing Unit(GPU): 그래픽 렌더링 및 집중적인 병렬 계산을 위한 특수 프로세서
- Lossless: 흐름 제어(flow control)를 사용하여 패킷 손실을 방지하도록 설계된 네트워크
- Data Center Quantized Congestion Notification(DCQCN): DCQCN은 양자화된 신호를 사용하여 빠른 혼잡 제어 및 송신자 조정을 위한 데이터 센터 알고리즘
- ECN: 패킷을 삭제하지 않고 혼잡을 알리는 네트워크 신호 PFC: 특정 트래픽 우선순위를 일시 중지하여 패킷 손실을 방지
- Rail Optimized: 높은 대역폭, 낮은 지연 시간으로 RDMA 성능을 극대화하기 위해 전용 경로를 사용하는 네트워크
- Ultra Ethernet: 울트라 이더넷은 AI 및 HPC에 대한 증가하는 네트워크 요구 사항을 충족하기 위해 이더넷을 기반으로 Ultra Ethernet Consortium(UEC)에서 개발 중인 차세대 네트워크 아키텍처
Github : https: //github.com/jesuispy/networking-101-gcp-sheet