极光超算推动生成式AI发展,将支持运行当今规模最大的大语言模型!

发布时间:2023-08-29  

作为阿贡国家实验室Aurora超算的首席架构师和主要研究员,Olivier Franza在这台极具雄心的科学仪器落地的过程中发挥了主导作用。

本文引用地址:

Aurora超算是英特尔最近参与的备受瞩目的项目之一,它对英特尔整个系统产品组合都挺有挑战性。事实上,Aurora超算不仅是世界上最大的GPU集群,同时,预计将成为第一台峰值性能达到每秒2百亿亿次(2×10^18)浮点运算能力的超算。

作为一位在英特尔工作了22年的老兵,在面对Aurora超算时,Olivier Franza还是感受到了压力。

2016年,Olivier Franza作为系统硬件架构师加入了Aurora项目,2021年,他成了首席架构师,目睹了Aurora项目向基于GPU架构的重大转变。

“首席架构师要做的就是根据客户的高标准要求,来调整超算的整体系统架构,”Franza解释说。“首席架构师也会关注一些基本的参数,比如总体性能指标,功耗情况,还有一些RAS(可靠性、可用性、可维护性)特性,这些对于构建有扩展性的系统都至关重要。”

当然,首席架构师要关注的是整个系统方方面面,从一个个节点到一个个机架再到整个系统,还要包括各种网络和存储组件,都需要考虑到。

一次技术路线转变为塑造未来产品创造了机会

Aurora超算是早期规划中计划采用一系列的英特尔产品技术。随着英特尔产品路线的调整,Aurora的规划也做出改变。

当英特尔宣布打造数据中心GPU产品线后,Franza参与到了英特尔数据中心GPU Max系列产品的设计讨论工作当中。

所以说,Aurora超算不是一步到位成现在这样的。Aurora超算的构建过程,影响着英特尔战略和产品线规划,也使得Aurora超算能在很高的层面解决规模和性能问题。

Franza表示,英特尔通过从组件到系统做出很多调整来满足Aurora超算的需求。

比如,英特尔至强CPU Max系列处理器的架构和概念,就衍生自英特尔至强Phi的一些特性,这是第一个在封装里集成了高带宽和高容量创新内存架构的产品。

此外,为了追求更高的性能,Aurora超算的各种子系统都取得了一些进步,从刀片服务器的散热,到高密度集成的方式再到存储部分,都有许多创新。

值得一提的是,在这一过程中,英特尔还构建了一个全新的存储系统——DAOS(分布式异步对象存储)。

Franza表示,这是一个开源项目,可以在传统硬件上实现高速存储,而Aurora超算是首批使用DAOS的用户之一,同时也是目前DAOS部署规模最大的用户。

从设计组件到把数千个系统连在一起

Aurora超算项目加强了英特尔系统级思考能力,也推动了英特尔内部各业务部门之间的协作,与外部阿贡科学家和HPE(HPE是该项目的另外一个主要参与者)工程师之间的协作,有很多跨职能部门和跨组织的协作工作。


“让一整个团队统一行动,交付像Aurora这样的超级计算机,对我们许多人来说,是一生难得一次的经历。”Franza说。

尽管工程师在六月份就安装了最后一台刀片服务器,但Aurora超算后续的大规模测试、稳定性验证还需要Franza 夜以继日的工作。

Franza为一个大的团队提供指导,该团队负责Aurora超算的启动、验证、稳定、优化工作,尽可能发挥系统在负载下的性能表现。其中最值得注意的是High Performance Linpack(HPL)基准测试,这是Top500榜单的排名依据,榜单上都是全球最强的超算系统。

每天早上,Franza都会仔细检查每个节点在夜间的运行情况,并为第二天及以后的工作制定计划。每天下午,Franza都会开会总结进展和遇到的难题。这样的工作每天都有,而机器也一直在运转当中。

“我们会系统地进行验证,”Franza解释说。“先从单个刀片服务器开始,然后转向机架规模,再到多个机架规模,以此进行大规模验证。”

Aurora超算由10624台刀片服务器组成,拥有63744块英特尔Max系列GPU,是世界上规模最大的GPU集群。在166个机架当中,使用了一共21248块英特尔至强Max CPU。

Franza介绍称,Aurora超算中心的大小相当于4个网球场那么大,听起来规模就很大,但只有亲眼看到它,才会真正意识到它有多大。

Franza的首要工作就是确保系统稳定性,功能完善,还要能正常运行。这是一项非常艰巨的任务,而Franza已经看到了胜利的曙光。

走在数据中心的通道里,看着灯光闪烁着,看着机器在正常运转,这令Franza感到神清气爽,并且很有满足感和成就感。

“一生一次难得一次”的努力,打造解决科学难题的超级计算机

打造一座有影响力的科研超级计算机固然会面临很多难题和阻碍,但考虑到Aurora超算在癌症研究方面的巨大潜力,有机会让所有人受益,Franza内心的使命感支撑他走了过来。

Aurora超算不仅会用于解决世界上一些最复杂的科学和工程问题,它还是运行生成式AI,并将生成式AI用于研究的理想平台。

据了解,Aurora超算将支持迄今为止,规模最大的大型语言模型,即1万亿参数的Aurora GenAI项目,从而提高科学家的工作效率、简化科学家的工作。

Franza做的是一件了不起的事情,而工作中令他感到欣慰的还有团队协作和友情。

Aurora超算是一项工程量浩大的项目,需要许多人付出长期努力,需要大量的毅力。

从Franza的介绍中了解到,其核心团队一直保持着马拉松式的心态,直到最后一刻都不能放松,团队需要的是那种能够长时间专注于极具挑战性事物的人,而这些人最终所取得的成就是大部分人都很难做到的。

  文章来源:DOIT


文章来源于:电子产品世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>