NVIDIA推出Blackwell架构DGX SuperPOD,适用于万亿参数级

发布时间:2024-03-19  


本文引用地址:

1710843202501249.png

于近日发布新一代AI机 —— 搭载 GB200 Grace 超级芯片的 ™。这台AI机可以用于处理万亿参数模型,能够保证超大规模生成式 AI 训练和推理工作负载的持续运行。

全新  采用新型高效液冷机架级扩展架构,基于NVIDIA DGX™ GB200系统构建而成,在FP4精度下可提供 11.5 exaflops 的 AI 性能和 240 TB 的快速显存,且可通过增加机架来扩展性能。

每个DGX GB200系统搭载36个NVIDIA GB200超级芯片,共包含36个NVIDIA Grace CPU和72个NVIDIA GPU。这些超级芯片通过第五代NVIDIA NVLink®连接成一台超级计算机。与NVIDIA H100 Tensor Core GPU相比,GB200 超级芯片在大语言模型推理工作负载方面的性能提升了高达 30 倍。

NVIDIA创始人兼首席执行官黄仁勋表示: “NVIDIA DGX AI超级计算机是推进 AI 产业变革的工厂。新一代DGX SuperPO 集NVIDIA加速计算、网络和软件方面的最新进展于一体,能够帮助每一个企业、行业和国家完善并生成自己的AI。”

Grace  架构的  由 8 个或以上的 DGX GB200 系统构建而成,这些系统通过 NVIDIA Quantum InfiniBand 网络连接,可扩展到数万个 GB200 超级芯片。用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,从而获得海量共享显存空间,来赋能下一代 AI 模型。

面向时代的全新机架级扩展的DGX SuperPOD架构

采用DGX GB200系统构建而成的全新DGX SuperPOD采用了统一的计算网络。除第五代NVIDIA NVLink网络外,还包括NVIDIA BlueField®-3 DPU,并将支持同为近日发布的NVIDIA Quantum-X800 InfiniBand网络。这个架构可为计算平台中的每块GPU提供高达每秒1800 GB的带宽。

另外,第四代NVIDIA可扩展分层聚合和规约协议(SHARP)™技术可提供14.4 teraflops的网络计算能力,与上一代产品相比,新一代DGX SuperPOD架构的网络计算能力提高了 4 倍。

统包式架构搭配先进的软件,实现前所未有的正常运行时间

全新DGX SuperPOD是一台完整的数据中心级AI超级计算机,在与NVIDIA认证合作伙伴提供的高性能存储集成后,能够满足工作负载的需求。每台超级计算机都在出厂前完成了搭建、布线和测试,从而大大加快了在用户数据中心的部署速度。

Grace Blackwell架构的DGX SuperPOD具有智能预测管理功能,能够持续监控软硬件中的数千个数据点,通过预测并拦截导致停机和低效的根源以节省时间、能耗和计算成本。

即使没有系统管理员在场,该软件也能识别需要重点关注的领域并制定维护计划,灵活调整计算资源,通过自动保存和恢复作业来防止停机。

如果软件检测到需要更换组件,该集群将激活备用容量以确保工作能够及时完成。为任何必要的硬件更换做好安排,以免出现计划之外的停机。

NVIDIA DGX B200系统推动各行各业AI超级计算发展

NVIDIA还发布了一款统一用于AI模型训练、微调和推理的通用AI超级计算平台NVIDIA DGX B200系统。

采用风冷传统机架式设计的DGX已被全球各行各业数千家企业广泛采用,DGX B200 DGX系列的第六代产品。采用Blackwell架构的全新DGX B200系统包含8个NVIDIA B200 Tensor Core GPU和2个第五代英特尔®至强®处理器。用户还可以使用 DGX B200 系统构建 DGX SuperPOD,打造能够帮助大型开发团队运行多种不同作业的 AI 卓越中心。

DGX B200 系统凭借全新 Blackwell 架构中的 FP4 精度特性,可提供高达 144 petaflops 的 AI 性能、1.4TB 海量的 GPU 显存和 64TB/s 的显存带宽,从而使得该系统的万亿参数模型实时推理速度比上一代产品提升了 15 倍

DGX B200系统包含带有8个NVIDIA ConnectX™-7网卡和2个BlueField-3 DPU的高性能网络,每个连接的带宽高达400 Gb/s,可通过NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum™-X以太网网络平台支持更高的AI性能。

软件和专家为扩大生产级AI的规模提供支持

所有 NVIDIA DGX 平台均包含用于企业级开发和部署的NVIDIA AI Enterprise软件。DGX用户可以通过使用该软件平台中的预训练的 NVIDIA 基础模型、框架、工具套件和全新NVIDIA NIM微服务来加速他们的工作。

NVIDIA DGX专家与部分获得NVIDIA DGX平台支持认证的合作伙伴将在每个部署环节为用户提供帮助,以便其迅速实现AI投产。在系统投入运行后,DGX专家还将继续协助用户优化其AI管线和基础设施。

供应情况

NVIDIA全球合作伙伴预计将在今年晚些时候提供基于DGX GB200和DGX B200系统构建而成的NVIDIA DGX SuperPOD。更多信息,请观看GTC主题演讲回放或在3月21日前参加由NVIDIA和行业领导者带来的会议。

文章来源于:电子产品世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>