AWS 与 NVIDIA 宣布策略合作针对生成式 AI 推出全新超级计算机基础设施、软件及服务

发布时间:

来源: ECCN

• AWS 推出首款结合 NVIDIA Grace Hopper Superchip 超级芯片与 AWS UltraCluster 扩充技术的 AI 超级计算机

• NVIDIA DGX Cloud率先配备 NVIDIA GH200 NVL32，并将首次在 AWS 上提供此 AI训练即服务

• NVIDIA和AWS在 Project Ceiba上的合作，设计全球最快的 GPU驱动AI 超级计算机以及最新的 NVIDIA DGX Cloud 超级计算机，供 NVIDIA 的AI 研发与自定义模型开发服务

• 配备 NVIDIA GH200、H200、L40S 及 L4 GPUs 等核心的全新Amazon EC2 instances，将大幅提升生成式 AI、高效能运算、设计、以及仿真的工作负载效能

• 在 AWS 上运行的 NVIDIA 软件，包括 NeMo LLM 框架、NeMo Retriever、以及 BioNeMo，将加速自定义模型、语意检索、新药研发等应用的生成式 AI发展

在 AWS re:Invent 全球大会上，Amazon Web Services（AWS）、亚马逊（Amazon）、NVIDIA 宣布扩大策略合作，连手推出先进的基础设施、软件及服务，藉此赋能客户在生成式 AI（Generative AI）上创新。

策略合作将集合NVIDIA 与 AWS 的尖端技术，结合NVIDIA 新一代 GPU、CPU 与 AI 软件的最新多节点系统，和AWS 的 Nitro System 先进虚拟化与安全平台、Elastic Fabric Adapter（EFA）互连接口、以及 UltraCluster 扩充服务，以提供理想环境来训练基础模型及构建生成式 AI 应用。

是次扩大合作将进一步巩固双方长久的合作关系，为投入机器学习（ML）的先驱提供所需的运算效能，同时协助发展尖端技术，合力推动生成式 AI 时代。

合作的扩展将大幅加速各行各业应用生成式 AI 上：

• AWS 成为首家配备多节点 NVLink 技术的 NVIDIA GH200 Grace Hopper 超级芯片的云端服务供货商。NVIDIA GH200 NVL32 多节点平台将运用 NVIDIA NVLink 与 NVSwitch 技术连结 32 个 Grace Hopper 超级芯片，组成一个实例。此平台将在 Amazon Elastic Compute Cloud（Amazon EC2）instances 上营运，结合 Amazon 的强大网络（EFA）、先进的虚拟化能力（AWS Nitro System）以及超大规模丛集的支持（Amazon EC2 UltraClusters），赋能共同客户将其使用的方案扩充至配备数千颗 GH200 超级芯片的规模。

• NVIDIA 与 AWS 将连手在 AWS 上推出首个采用 GH200 NVL32 的 DGX Cloud 方案 — NVIDIA DGX Cloud AI 训练即服务（AI-training-as-a-service）方案，在运行单一 instance 的情况下，为开发者提供最大容量的共享内存。在 AWS 上运行的 DGX Cloud 将加速训练拥有超过 1 兆参数的尖端生成式 AI 与大型语言模型。

• NVIDIA 与 AWS 正合力推动 Project Ceiba，连手设计全球最快的GPU驱动的 AI 超级计算机。这开创先河的超级计算机配备 GH200 NVL32 与 Amazon EFA 互连技术以及16,384颗 NVIDIA GH200 超级芯片，具备65 exaflops 速度等级的 AI 运算能力。该计算机的大规模系统将由 AWS 代管，并为 NVIDIA 研发团队提供服务，助其推动新一波生成式 AI 的创新。

• AWS 将再推出三款 Amazon EC2 instances：P5e instance配置 NVIDIA H200 Tensor Core GPUs，针对大规模与尖端生成式 AI 及 HPC 工作负载；以及分别配置 NVIDIA L4 GPUs 与 NVIDIA L40S GPUs 的 G6 与 G6e instance，能够运行包括 AI 微调、推论、绘图、以及影片工作负载等广泛应用。G6e instances 特别适合用于开发 3D 工作流程、数码分身、以及其他使用 NVIDIA Omniverse 的应用，用来连结与构建各种生成式 AI 的 3D 应用。

• AWS 行政总裁 Adam Selipsky 表示：「AWS 与 NVIDIA 的合作已达 13 年。于最初的合作中，我们推出了全球首个配置 GPU 的云端instance。如今，我们为各种工作负载提供覆盖范围最广的 NVIDIA GPU 解决方案，涵盖绘图、游戏、高效能运算、机器学习，延伸至目前的生成式 AI。AWS 持续运用 NVIDIA 技术推动创新，结合新一代 NVIDIA Hopper 超级芯片与 AWS 的 EFA 强大网络、EC2 UltraClusters 的超大规模丛集、以及 Nitro 的先进虚拟化功能，让 AWS 成为执行 GPU 运算的最佳云端环境。」

NVIDIA 创办人暨行政总裁黄仁勋表示：「生成式 AI 正改革各种云端作业的负载，为多元内容创作导入加速的运算动能。本着为每位客户提供高成效且最先进的生成式 AI的共同目标， NVIDIA 与 AWS 携手开发 AI 基础设施、加速函式库、基础模型、以及生成式 AI 服务。」

AWS 上运行的 NVIDIA 软件加速生成式 AI 的研发

此外，NVIDIA 发布在 AWS 上运行的软件，将加速生成式 AI 的研发。NVIDIA NeMo Retriever 微服务提供多项新工具，包括可以用以创造高精准度聊天机械人的工具和能加速语意检索技术的归纳工具。在 Amazon SageMaker 服务上运行的 BioNeMo 计划在 AWS 托管的 NVIDIA DGX Cloud 上执行，让制药企业运用自己的数据简化与加速模型训练，藉此加快新药开发。

在 AWS 上运行的 NVIDIA 软件助 Amazon 为服务与营运创新。AWS 正运用NVIDIA NeMo 框架训练新一代的 Amazon Titan 大型语言模型，而 Amazon Robotics 亦已开始运用 NVIDIA Omniverse Isaac 构建数码分身，在虚拟化环境中规划及完善无人仓库，推动其自动化，助日后迁移至真实环境。

关于NVIDIA

从1993年创立以来，NVIDIA一直是加速运算的先驱。1999年发明的GPU开启PC游戏市场的成长、改造计算机绘图的型态、开启现代AI的世代，并为元宇宙的创建挹注动力。NVIDIA现已发展成全堆栈运算企业，推出各种数据中心规模的方案，重塑产业的面貌。欲了解更多NVIDIA的相关信息，请至：nvidianews.nvidia.com/。

关于Amazon Web Services

自2006年来，Amazon Web Services一直在提供世界上服务最丰富、应用广泛的云端服务。AWS为客户提供超过240种功能全面的云端服务，包括运算、储存、数据库、网络、分析、机器学习与人工智能、物联网、流动、安全、混合云、虚拟和扩增实境(VR 和AR)、媒体，以及应用开发、部署和管理等方面，遍及32个地理区域内的102个可用区域(Availability Zones)，并已公布计划在加拿大、德国、马来西亚、纽西兰和泰国建立5个AWS地理区域、15个可用区域。AWS的服务获得全球超过百万客户的信任，包括发展迅速的初创公司、大型企业和政府机构。通过AWS的服务，客户能够有效强化自身基础设施，提高营运上的弹性与应变能力，同时降低成本。

文章来源于: ECCN 原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。

AWS 与 NVIDIA 宣布策略合作 针对生成式 AI 推出全新超级计算机基础设施、软件及服务

AWS 与 NVIDIA 宣布策略合作针对生成式 AI 推出全新超级计算机基础设施、软件及服务