微软 Azure AI 基础设施迎来升级,推出了 ND H100 v5 虚拟机系列,这款虚拟机配备了英伟达 H100 Tensor Core 图形处理单元(GPU)和低延迟网络。
据介绍,微软全新发布 Azure ND H100 v5 虚拟机(VM)系列,现已在美国东部和美国中南部 Azure 区域提供。
该系列配备了最新的英伟达 H100 Tensor Core GPU 和英伟达 Quantum-2 InfiniBand 网络,用于应对 AI 工作负载带来的日益增加的复杂性。作为微软在 AI 领域深入和持续投资的一部分,微软正在利用一个 AI 优化的 4K GPU 集群,并将在明年将其扩展到数十万个全新的 GPU。
汇总 ND H100 v5 VM 虚拟机系列的特性:
-
AI 超级计算 GPU:配备了八个英伟达 H100 Tensor Core GPU。比起上一代虚拟机,该系列可让 AI 模型显著提速。
-
新一代计算机处理单元(CPU):CPU 性能对于 AI 的训练和推理至关重要,微软选择了第四代英特尔 Xeon Scalable 处理器。
-
低延迟网络:采用英伟达 Quantum-2 ConnectX-7 InfiniBand,每个 GPU 拥有 400Gb / s、每个 VM 拥有 3.2 Tb / s 的跨节点带宽。
-
优化主机到 GPU 的性能:通过 PCIe Gen5 提供每个 GPU 64GB/s 的带宽。
-
大规模的内存和内存带宽:DDR5 内存是该系列虚拟机的核心,提供更高的数据传输速度和效率。
微软表示,该系列虚拟机使用新的 8 位 FP8 浮点数据类型进行矩阵乘法操作时,速度提升了六倍,比前一代的 FP16 更快。ND H100 v5 VM 帮助大型语言模型(如 BLOOM 175B 端到端模型)实现了最高两倍的推理速度提升。
相关文章