根据外媒The Information的报导,英伟达新一代Blackwell架构AI芯片在高容量的机架服务器中存在严重的过热问题。而这些问题导致英伟达的设计调整与计划延期,使Google、Meta和微软等主要客户对能否按计划部署搭载Blackwell架构AI芯片的服务器感到担忧。
报导引用知情人士的说法报导指出,Blackwell架构AI芯片专为AI和高性能计算(HPC)所设计,但在配置72个处理器的服务器中出现过热问题,此类服务器每个机架功耗最高可达120KW。而过热问题迫使英伟达多次修改机架设计,不仅限制了芯片性能,还可能损坏硬体。客户因此担心,这些技术问题会延迟数据中心的服务器部署时程。
报导表示,为解决问题,英伟达要求供应商调整机架设计,并与合作伙伴一起优化散热系统。尽管这种工程改进是大规模技术发布中经常有的步骤,但也进一步延迟了产品交货时间。英伟达发言人针对此事回应指出,公司正与云端运算服务提供商密切合作,而设计调整属于正常研发流程的一部分,英伟达希望通过这种合作,确保最终产品在性能和可靠性方面达到预期,同时加紧解决技术瓶颈。
至于,修正后的Blackwell架构AI芯片预计最快2025年1月底出货。由于Google、Meta、微软等科技大厂依赖英伟达的AI芯片训练其强大的AI模型。因此,延期交货对这些客户的研发计划和产品发布造成的影响自然将会是不可避免。
封面图片来源:拍信网