“只有创新才能不断推动技术的进步”Arm高级副总裁兼基础设施事业部总经理Mohamed Awad认为,这也是Arm一直秉承的信念。
Arm Tech Symposia年度技术大会深圳场于11月27日举行,本次会议以“Arm正在构建计算的未来”为主题,围绕人工智能、机器学习、物联网、基础设施、汽车、终端、移动计算等行业热点话题进行探讨。
多年来,Arm通过创新不断拓展其计算平台,产品组合包括Arm 全面计算解决方案(Arm Total Compute Solutions)、Arm Neoverse平台、Arm Corstone以及SOAFEE等。而在本次会议上,Mohamed Awad向业界诠释了人工智能(AI)正在发生的一些变化、以及对未来计算基础设施市场的展望和战略目标,同时全方位地介绍了Arm Neoverse 计算子系统(CSS)的技术创新点和细节。
图:全球半导体观察(摄)
全新系统架构融入基础设施,加速解决行业痛点
从架构差异上看,“在传统的服务器系统架构中,左边是内存,然后内存连接到一个通用的现成CPU,这个CPU又负责管理多个加速器。这样的传统架构是过去市场上唯一可用的架构,但这个架构的问题在于,这个通用的现成CPU以及加速器之间的接口直接限制了产品最终的性能水平,因为所有的加速器都必须要通过一个CPU访问额外的内存,这样就无法达到内存的一致性,也就意味着加速器的性能无法被充分利用,也就无法很好地支持生成式AI时代的需求。”Mohamed Awad指出。
而现在出现了一种现代的系统架构,即每一个CPU都可以单独和一个加速器相连,会有较强的内存一致性。更重要的是,该CPU是一个定制的CPU,跟加速器实现一对一组合后,它的整体链路以及数据吞吐率会达到最高,以提高加速器本身的利用水平。
Mohamed Awad指出,在这样的架构下,设计方可以更好地根据用户的实际场景和用例进行CPU设计,从而将加速器的使用效率提到最高。只有具体了解最终用例是什么,并且根据你的使用场景针对性地设计CPU,才能获得更好的效率,才能达到产品最佳的表现性能,从而更好地支持未来基础设施的市场需求,包括生成式AI。
谈及这样的架构是否会增加连接的复杂,Mohamed Awad强调,这样的架构可以实现非常多的直连,不管是裸片对裸片的直连,还是SoC的直连,这个架构可以实现内存的一致性,并作为单独的系统运行,让性能与效率表现更为优异。
上述描述的架构正是NVIDIA GH200 Grace Hopper超级芯片所使用的架构。在该架构中,搭载了72颗Arm Neoverse核心和来自NVIDIA GPU的组合,其AI性能较基于x86架构的系统可提升10倍。
目前,阿里巴巴、鸿钧微电子、遇贤微电子、云豹智能以及联想等企业正与Arm进行深度地合作,通过Arm提供的计算技术平台从而打造并优化其解决方案,或是将Arm平台部署到5G应用中。
Mohamed Awad称,Arm能够帮助合作伙伴从头开始、根据所需构建定制化的CPU,帮助他们做好CPU和加速器之间的连接。除此以外,还可以利用Arm强大的软件生态系统,以赋能整个开发,并加速产品上市进程。这也是Arm的独特之处。
拉开创新自由度,Arm Neoverse CSS打造定制化基础设施
Arm Neoverse计算子系统(CSS)是Arm于8月28日宣布推出的驱动定制芯片,面向新一代数据中心和网络基础设施。该产品是基于Arm Neoverse N2平台所开发的Arm Neoverse CSS N2为Arm CSS的第一代产品。
Arm Neoverse CSS N2从每芯片24、32和64个核心设计进行扩展,具有连接DDR5、LPDDR5、PCIe/CXL和其他类型IP的接口。相较于独立的IP,Arm Neoverse CSS N2将促使Arm生态系统通过更低的成本、更少的风险以及更短的时间,打造出专用芯片。
图:全球半导体观察(摄)
Arm表示,通过使用其Neoverse CSS,专用集成电路(ASIC)设计公司可以快速启动设计项目,并随时可将其设计方案提供给所需的客户;IP供应商可以针对NeoverseCSS,进行预先集成、预先验证和预先优化高级IP;EDA合作伙伴可以无缝支持最先进的工具和流程,以简化SoC设计;商业固件解决方案可早于芯片流片之前便开始开发;与此同时,Neoverse CSS的设计将经过专门优化,充分发挥领先的工艺节点的优势。
据悉,在一家合作伙伴的实现中,Arm Neoverse CSS可降低SoC的设计复杂性,并节省了长达80人/年的工程师时间。另据Mohamed Awad透露,根据另外一个客户的反馈,通过使用Arm Neoverse CSS,助力他们的项目从概念到落实(在超过100个核心的系统上启动Linux)仅耗时13个月。
近期,微软发布了基于Arm Neoverse CSS的Microsoft Azure Cobalt 100 CPU。此外,据了解目前也有中国的合作伙伴正在基于Arm Neoverse CSS进行开发。
在Neoverse CSS的基础之上,Arm还宣布推出Arm全面设计(Arm Total Design)生态项目,进一步结合生态系统的力量,简化定制芯片的开发流程,使交付变得更加容易、便捷。目前,Arm全面设计进一步提高了Neoverse CSS生态系统中可供合作伙伴使用的可能性,能够帮助合作伙伴加速他们的解决方案开发。这也就意味着,不管是ASIC设计公司、IP供应商、EDA工具提供商、代工厂和固件开发者,Arm都能进一步支持和帮助他们的产品研发。
值得关注的是,在芯粒(chiplet)领域中,Arm Neoverse CSS具备让定制芯片更易获取的特性,可以支持新兴的chiplet技术。通过与Arm全面设计生态项目成员和更广泛的生态系统在AMBA CHIC2C、UCIe和其他计划上开展合作,Arm正在推动将基本接口和系统架构达成业内一致性,实现围绕多芯片芯粒SoC设计的创新发展。据Arm指出,一个典型例证是来自Socionext的多核CPU芯粒,其采用Neoverse CSS技术,并基于TSMC 2nm工艺节点进行设计开发,面向服务器CPU、数据中心AI边缘服务器和5/6G基础设施提供解决方案。
AI发展势头正劲,Arm下一步如何落子?
ChatGPT等生成式AI的大规模商用加速了AI的普及。而人工智能的关键在于硬件和软件的紧密集成,以及性能和计算能力的提升,在当今70%的机器学习工作负载运行在Arm平台之上。
面对当下的市场和瞬息万变的新需求,Mohamed Awad称,对于Arm来说,其闪光点在于始终致力于助力其合作伙伴,通过实验、设计,以及创新系统架构,进一步推动包括生成式AI等在内的AI的发展。
从基础设施的角度来讲,Mohamed Awad表示,“Arm希望从更加广义的角度来界定AI。传统意义上,大家所提到的AI都是服务器当中的AI或生成式AI,但是我们相信,未来当我们在讨论AI时,它还可以存在于边缘,存在于网络当中,从传统的数据端,一直到存储,到服务器,将融入每一个过程当中。”
针对中国市场而言,Mohamed Awad表示,中国是Arm非常重要的市场之一。来自中国市场的创新也是Arm不断发展,并在业务上取得成功的原因之一。
Mohamed Awad透露称,“中国合作伙伴基于Arm架构芯片的总出货量已累计达300亿颗,这个数字确实惊人。也就是说,仅中国市场的出货量来看,就能平均为地球上的每个人出货近四颗芯片。目前我们在中国有近400家技术授权客户,这个数字每个月都在不断攀升。此外,我们也一直通过与安谋科技合作以进一步助力本土合作伙伴。”
相关文章