英伟达新一代AI芯片过热或延迟交付?回应来了……

发布时间:2024-11-19  

英伟达新一代 AI GPU面临芯片过热问题

根据知情人士的爆料,Blackwell AI GPU装入可容纳多达72颗芯片的服务器机架时会出现过热的问题,这些机器预计每个机架的功耗高达120kW。而过热会限制GPU性能并有损坏组件的风险。

目前,包括英伟达员工、客户和供应商在内的多方面消息称,英伟达已多次要求供应商调整机架设计,但这种过热的问题依然存在。

外媒的报道称,一些英伟达客户担心没有足够的时间推进新数据中心的建设运行,包括元宇宙、谷歌和微软等在内的科技巨头均受到影响。

对此,有多家媒体致电英伟达。英伟达方面对媒体回应表示:“我们正在与领先的云服务提供商合作,将其作为我们工程团队和流程中不可或缺的一部分。工程迭代是正常且符合预期的。将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与我们的客户共同设计。”

据悉,Blackwell用作培训大语言AI模型,其速度比英伟达上一代芯片H100的速度快2.5倍。该芯片此前预计发货时间为今年第二季度。

英伟达Blackwell在今年3月推出

据悉,Blackwell是英伟达在2024年3月推出的新一代AI芯片与超级计算平台。Blackwell的强悍性能一直为大家津津乐道,它由多个英伟达芯片组成,包括Blackwell GPU、Grace CPU、BlueField数据处理单元、ConnectX网络接口卡、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机,涵盖了从CPU和GPU计算到用于互连的不同类型的网络,可支持多达10万亿参数的模型进行AI训练和实时大语言模型(LLM)推理。

Blackwell的具体性能还包括以下:

  • NVIDIA的Blackwell架构GPU搭载了2080亿个晶体管,采用专属定制的台积电4NP工艺精心打造。该设计突破传统,实现了裸片尺寸翻倍,并通过10 TB/s的高速片间互联技术,将多个GPU裸片整合为单一的高效能单元。
  • 在Blackwell架构中,升级版的第二代Transformer引擎融合了创新的微张量缩放技术,并结合NVIDIA先进的动态范围管理算法,使得在4位浮点AI推理方面,算力和模型尺寸均实现了显著提升。
  • 第五代NVLink技术进一步优化了处理万亿级参数模型和混合专家AI模型的能力,每块GPU的双向吞吐量高达1.8TB/s,确保了多达576块GPU之间的高效、无间断通信,完美应对当今最为复杂的LLM挑战。
  • 此外,Blackwell架构的GPU内置了RAS引擎,专注于提升系统的可靠性、可用性和可维护性。Blackwell还增添了多项先进的芯片级功能,通过AI驱动的预防性维护策略,进行故障诊断和可靠性问题的预测,从而确保了系统的稳定运行。
文章来源于:国际电子商情    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>