在2023年11月23日的“临港国际半导体大会”的主峰会上,华为半导体解决方案总监艾小平分享的议题围绕“系统工程”方法是如何指导华为做好产品展开。他援引航空航天行业的发展为例解释说,在同样作为高科技行业的半导体行业,即使没有最先进的技术,也可以通过运用系统工程方法,来完成重要的里程节点。
月船3号的启示:并非只有先进技术才能实现跨越
可能许多人的惯性思维认为,只有先进的技术才能实现超越。但航空航天领域却存在一些真实案例能够证明——即使采用现有技术,甚至落后的技术,也同样可以实现跨越。
今年8月,印度第三次登月任务探测器月船3号成功登录月球。而月船3号搭载的关键子系统,大部分都不是领先的技术,但它依然实现了登月的壮举。艾小平评价说:“与航空航天行业一样,半导体行业也是高科技行业,同样的发展道路一定也能实现。即使我们没有最先进的技术,在运用系统工程方法的基础上,也可以完成重要的里程节点。”
据介绍,系统工程是在20世纪20年代开始兴起的一门新兴实用学科,最早起源于贝尔电话实验室,第二次世界大战以来,随着材料、电子、控制、信息等技术的爆炸式发展,系统工程在飞机、军事装备、火箭、卫星等复杂系统研制中的应用越来越广泛,对现代工程产生了巨大而深远的影响。
系统工程不仅仅是一门综合性很强的实用技术科学,也是一种现代化的组织管理技术。系统工程的典型理论模型与标准组织,包括:霍尔三维结构、INCOSE系统工程手册、MBSE。具体来看,上世纪60年代,霍尔三维结构正式把系统工程从思想变成工程规范;上世纪90年代,系统工程国际委员会正式成立并发布了“系统工程手册”,很多行业基于手册中的指导思想来定义行业规范;2007年,系统工程国际委员会发布了MBSE模型(基于模型的系统工程),西方的航空航天领域都基于MBSE去做复杂系统的管理。
其实,中国也有一些思想体系的建设,其中以航空航天体系最为典型。钱学森运用了很多运筹学方法理论,指导了中国航天如何在被限制的情况下,最终构建起属于自己的航天体系。
华为如何使用系统工程方法论的?
华为是怎么看待系统工程的?“实际上,我们内部是在2018、2019年才正式提出要系统性地建设系统工程。我们通过一些回顾发现,公司一直都在采用这种指导思想。”艾小平举例说,华为早期在通信领域快速发展,采用的是IPD(Integrated Product Development,集成产品开发)的理念。IPD是典型的系统工程方法论,它指导华为员工如何做研发,监控投资到研发各流程节点,保障产品研发的有效性和高质量。
从2010年开始,华为公司进入到新的阶段。因为在通信领域到了第一梯队,再往上的空间其实已经相对很有限,此时需要公司去找未来发展的路径。针对未来技术高密度的布局和投资,也是在系统工程的理论方法指导下,在全球布局华为的能力中心。
从2019年到现在,这个阶段的命题是:在特殊情况下,如何把产品做好?华为内部很多部门都采用系统工程建设的方法来指导组织架构和流程,艾小平今天的演讲则重点聚焦“如何用系统工方法来做好ICT产品”。
当前,华为遇到的最大问题是:在技术获取受限、资源受限的情况下,公司怎么持续保障自己的竞争力?艾小平说:“华为在ICT领域有一个目标——希望成为ICT高质量的代名词。在技术和资源受限的情况下,如何才能让用户相信华为的产品仍能代表高质量?实际上,要从各个维度去寻找突破办法。”
这个多维度实践要向“下扎到根”,艾小平列举了几个具体的路径,包括了编译优化、软件性能倍增、产品性能、应用加速、算力网路、生态合作,它们分别对应的是毕昇编译器、高性能编码、企业存储、鲲鹏EDA加速、集群架构、工业软件。
毕昇编译器是“根”的一部分,华为希望能构建一整套算力的第二个底座,底层根技术是很重要的配套能力,公司可以在这一能力基础上提升性能,比如在同样的硬件支撑情况下,通过编译优化最大可提升10%的性能。
在软件维度上,艾小平介绍了MIT的一个小实验:假设用Python实现一个矩阵乘法的性能是1,用C语言重写后性能可以提高50倍,充分挖掘体系结构特性(如循环并行化、访存优化、SIMD等),性能提高63000倍。据悉,Python是一种解释性语言,开发者利用它做大量开发时非常方便,但它在机器执行时的效率极差。MIT通过这个实验发现,在理想情况下,语言经过优化后,其性能会提升万倍。
艾小平评价说:“我们看到了巨大的潜力——通过软件层面的性能优化,提升整机产品的性能表现。”计算机体系中的CPU运行效率远高于内存、IO、外设,在做软件工程时要考虑减少外部读取、CPU切换的操作,再叠加架构的能力,从而提升产品的表现。而在很多领域,用户关注点并非只聚焦在底层CPU核心指标的提升,比如企业存储场景用户关注产品存储数据的容量、整体系统的可靠性,整机产品除了中CPU还有存储介质、产品的架构。“如果用户希望读写性能更好,我们就把机械硬盘换成固态硬盘;如果用户关注可靠性,我们就做全互联架构,提升可靠性,避免单点故障。”艾小平解释道。
在算力场景中,华为的愿景是“做未来数字经济,数字世界算力第二个底座”,该公司考虑的是怎么样给用户带来价值,而不仅是一些指标的竞赛。在一些特殊场景中,结合底层架构的能力,以及整体架构的调优,可以实现性能追赶,甚至超越。艾小平以半导体EDA场景为例,华为通过和国内EDA厂家合作,结合底层产品架构上的能力,“我们选择的是基于RAM多核架构路线,在这种架构路线下,允许上层SaaS应用去做高并发的改造,原来可能一个任务要跑10天,现在换成10个单个任务去跑,就可以节省任务时间。”
在大模型场景中,性能瓶颈不仅是算力本身,否则NBA也不会引入NVlink模式,通过带宽可定制出不同的产品。这种带宽在大模型高性能计算领域是重要的参数,未来的训练很难仅依靠单个节点、单颗芯片、单卡,甚至单个计算中心,这需要分布式集群式算力中心,来满足未来越来越高算力的需求。
当训练大模型时,算力没有得到完全利用,是因为不同节点之间数据传输有时会有瓶颈和拥塞,一旦发生一些故障则需要重算,这就是对算力极大的浪费。在这种现象下,华为配套的大模型网络体系,在当前已有的算力下去做挖掘,包括应用不同路径下的路径预测和优化能力,来大幅度提升整体系统吞吐容量;允许下游用户构建更大算力的集群等。
未来不同企业、组织之间,需要运用系统工程的方法,组织协调起来去做攻关,其中工业软件是最典型的场景。其实,国内新兴工业软件公司在资源方面也受到限制,无论是人员规模、资源投入,都无法与西方发达国家企业相比。所以要把国内已有产业伙伴集合起来,每家在自己最擅长的领域去突破,用系统工程的办法把点连成面,这是未来在工业软件体系下,要做的系统工程方法。
其实,中国的数字经济、电子产业、半导体领域,存在一个客观产业发展逻辑:企业一定在行业中承担着使命。比如,装备决定了制造的能力,Fab提供的产品支撑终端企业的产品表现,终端产品又支撑数字经济领域百花齐放。其实,反过来也同样成立,下游数字经济市场的滋养也让ICT企业受益,实际上整个产业链息息相关。
艾小平强调说,只有开放协作,才能达到最高的产业分工合作效率。在ICT整机领域,华为希望能够做好产品,这样才能把上游产业链留在国内,支撑中国数字经济持续向前。