意大利有家公司叫ROJ,这家企业专注于针对工业领域的电子技术,产品典型如基于ARM Cortex-M/A、FPGA的工业板和模块。这家公司有个特色,是“基于客户软件、硬件需求来提供个性化解决方案”。其典型客户如Mares——这是个生产潜水装备的企业,包括潜水表。Mares的特色也在满足不同客户的产品定制化需求。而“定制化”就意味着产品生产周期必须短,制造响应速度必须快,而且可能某一款产品的需求量还不大。实际上越来越多的制造商开始转向这种量不大,但品种多样的生产模式,这也是工业4.0的重要特点。
这在传统的生产模式中是不可想象的,直到数字工厂、智能制造开始出现:不同小订单之间的不同需求,生产设备可以很方便地通过数字操控的方式实现转变和协调——当然还有IT/OT融合、TSN的出现、各类统一与融合标准在工业领域的出现,都是实现这种操作的必要条件。不过这些不是本文要探讨的核心。
ROJ在智能制造时,所选方案的其中一个关键是Valor Material Management材料管理系统——这是来自西门子数字工业软件的一部分。ROJ首席执行官Franco Oliaro曾表示:材料需要在正确的时间、正确的位置提供,而制造现场的停工往往是因为材料没有到位。数字化的材料管理系统能做的就是材料分发,在需要材料的时候确保其准备就绪。
这个例子实际只是数字化生产和工业4.0的基本应用。当生产设备本身变得越来越复杂,越来越智能,就会产生海量数据。当这些数据熔于一炉后做数据分析,不仅用以了解过去的生产状况,同时利用机器学习还能提高未来生产质量、降低制造成本,即是AI技术对工业4.0的推动了。
工业制造在标准、互联等领域始终是很特殊的,现在谈工业4.0与AI是否为时过早?AI在工业4.0时代是否真的在发挥作用,以及究竟发挥到何种程度?这是我们期望以由上至下的方式,从工业制造AI解决方案、AI芯片、EDA,以及实际应用几个层面,来窥见当下工业制造的AI技术现状。
AI智能制造解决方案能做什么?
“传感器数据速率正在持续增长。大部分客户现如今的工厂传感器数据采集速率还在1Hz,但越来越多的芯片制造商收集速率达到了10Hz、100Hz。晶圆厂的数据量级现在开始进入PB级别,而不再是MB或者TB。”BISTel首席执行官W.K. Choi表示,“客户需要更出色的分析来驱动产品质量提升;工程师则期望更快地进行根因分析,近实时地(in near real time)、准确地解决影响良率和工程生产的问题。”这能说明什么问题?BISTel是一家提供智能制造解决方案的韩国企业,解决方案离实际应用总是靠的更近。
以半导体制造为例,我们先来看一个例子:晶圆制造发生不良率高的问题时,常规手法是工程师们调查并讨论,这个过程一般需要很久。如W.K. Choi所说,实现数字生产的工厂,传感器数据采集速率现如今已经很高了。针对晶圆生产不良率高的问题,可观察的参数至少包括温度、振动、压力等各项指标。如果针对所有相关指标做监测,那么分析难度自然可以得到降低。在这个例子中,不少晶圆片靠近边缘位置出现问题,因此成为“bad”晶圆。
BISTel的HMP(Health Monitoring & Prediction)在数据追踪中,系统列出总共6个导致良率问题的最优关联度参数,其中前两个分别是蚀刻工序的最后一步,电流发生激增;以及氦气值明显降低(图1)。蚀刻流程的最后一步就是氦气分离,这一例的“根因”就是在分离过程中,托盘与晶圆边缘接触,产生小范围火花——所以电流出现了激增,与此同时托盘某些氦气口堵塞造成氦气值降低。
在晶圆制造良率问题的“根因分析”这一例中,至少能够表现持续增长的“数据速率”是怎么回事,以及将原本需要以天、周为单位计的根因分析时间缩短到分钟、小时级别内。而AI技术在此处的核心,即如何利用海量数据做分析,并得出结论。
“具备AI能力的智能应用,可让系统和流程实现自动化,让客户得以近实时地针对每天的生产问题,做出检测(detection)、分析(analyses)和预测(prediction)解决方案。”W.K. Choi说,“现在我们在生产流程中,融入了更多强有力的AI分析,能够从这些流程中学习。我们随后就会把这些新的智能,应用到知识库(knowledge base)中。”[!--empirenews.page--]
这里的“知识库”即是AI在W.K. Choi所说“预测”中的大脑,其中包含所有“知识点”和解决方案,并通过学习不断完善。这里再来看一个例子,在某晶圆厂半导体制造CVD(化学气相沉积)流程中,追踪发现某一天(本例为4月18日)出现了异常高的报警数,很多晶圆质量都受到影响(图2)。报警内容为:“TDS”设备某节气阀发生位置偏移。如果这份数据拉长到为期半个月,那么很容易发现,在高报警事件发生的前两天,数据就已经显现出节气阀位置发生潜在漂移——而且早在10天以前,前序压力就因为节气阀位置偏移而出现不规则现象。
那么实际在发生高报警数之前,通过预测性维护(Predictive Maintenance)就能率先预知问题,“在错误发生之前就预测到错误”,以避免故障停机时间,因此得以提升效率并节省成本。更多的“预测”行为还包括预测设备的剩余可用寿命(RUL),以及各种执行基于条件的的预测性分析。
这里“基于条件”的预测性分析可认为是智能制造的核心产物。就好像日常的汽车保养,仍是基于时间或里程的:如每隔一个固定时间或固定行驶里程前往4S店做保养;但如果能够针对汽车发动机转速、温度、振动等各种参数做关联分析和预测,则在综合所有参数与AI分析过后,系统得出现在是否需要维护或下一次维护时间应该是在什么时候,这才是节约保养成本、提高生产效率的最佳方案。
现在我们知道,AI在智能制造中的应用,至少可有检测、分析和预测三步骤。不过这依然不是AI的全部。在BISTel的定义中,AI能够实现的终极目标远不止此。“AI应用,可嵌入已习得的知识,并实现自动化操作;应用AI获取的知识库,具备自主控制、自主治愈的能力。”
这句话强调的是AI学习的“自适应”能力,全过程包括完全自主地发现问题、学习问题,并采取行动。工厂内部的这个过程无需或少有人工干预。W.K. Choi说:“这是我们理想中的智能生产。”即便这一步尚未达成。
当工业MCU/SoC开始增加AI单元
从上述解决方案的实例来看,AI如何部署似乎还不够明朗。我们尝试往下看解决方案底层的硬件支持。不难想见,上层AI应用需求自然能够带动下层AI芯片或专核的兴盛,比如工业现场生产用机械臂或电机内部的MCU/SoC——毕竟我们反复在说AI这一技术热点是贯彻在整个垂直行业的。
常规能够想到的AI专核通常是具备高度并行计算能力+片上存储+低精度计算的ASIC核心,尤其如果是特别针对某个具体的工业应用场景。不过行业内颇具代表性的瑞萨电子DRP(Dynamic Reconfigurable Processor)技术,或称e-AI(嵌入式AI,DRP是e-AI技术的一部分)在思路上还略有不同。这里还是先举个例子。
在图3故障预判解决方案中,工业制造现场电机运行时,可通过加速度传感器来采集电机运行振动情况,这些采集的数据上传到云服务器,经由云服务器的学习软件做深度学习(基于谷歌TensorFlow神经网络架构);再由解释器将高级语言AI模型翻译成MCU可识别的机器语言,AI控制软件将AI模型下载到本地e-AI单元,实现故障预判。
这套系统监测的是电机运行情况,并可预测其剩余使用寿命,属于相当典型的AI预测性维护使用场景。在这一例中,由于硬件的具象化,我们得以更清晰地理解预测性维护的流程是什么样。瑞萨电子中国工业自动化事业部高级总监徐征告诉我们,除了预测性维护,e-AI还能用于异常检测,提高质量,自动化检验。
“我们已经在一些工业生产现场取得验证性测试结果,比如瑞萨电子那珂工厂,GE医疗(日本)日野工厂。那珂工厂的验证测试结果表明,以下三点在智慧工厂中是完全可行的:
- 使用AI识别异常结果。通过为复杂波形设置阈值,消除难点。
- 显著减少错误信息,从每月每台机器大约50条错误信息降低为零,消除工程师负担。
- 准确检测异常结果。通过使用高分辨率数据,将异常结果检测率提高6倍以上。”[!--empirenews.page--]
在我们的理解中,DRP在专用和通用,或者在性能和可编程性之间是个相对折中的方案。从结构上来看,这种动态可重构处理器包含可编程数据通道硬件(PE处理单元阵列)和状态转换控制器(完全可编程有限状态机),是十分典型的软件定义芯片(图4),可针对工业嵌入式设备的AI推理(inference)做加速。
“算法的种类和大小可由同一个DRP硬件进行时间复用处理。其灵活性非常适用于AI产业的DNN(深度神经网络)的快速演化。”徐征表示,“DRP可对硬件资源和应用场景做动态调整,做并发处理,帮助在后台做很多场景的匹配和预处理。”例如对可动态加速图像处理算法,达到相比通用CPU快10倍的速度。
类似DRP这类AI硬件的出现,及在兼顾弹性基础上对性能的追逐,实际都是智能制造开始全面步入AI的第一步。
在瑞萨电子的设想里,“首先会提供附加AI单元的解决方案以拓展市场,从而使e-AI实用性得到市场广泛理解,再推进工业终端设备e-AI预安装解决方案普及。”徐征说。这段话大概是瑞萨电子推广工业AI芯片的策略,但或许还能表明,智能制造和数字工厂的AI仍处在新生期,所以前期提供的是“附加AI单元”解决方案。
从宏观到微观世界的数字复刻
而从MCU/SoC的高度继续再往下层或供应链上层走,是EDA厂商。主流EDA厂商目前最特别的存在应该就是Mentor了:这家公司在被西门子并购以后,划归西门子的“数字工厂(Digital Factory)”业务旗下,且愈发看重“工业软件领域”的竞争力,而不只是以前那个,帮助系统与IC设计企业进行高级印刷电路板和芯片设计的EDA厂商。
西门子当年收购Mentor的业务逻辑一直被人多番揣测。Mentor中国区总经理凌琳在接受采访时表示:“我们绝大部分客户,都同时使用机械和电子工具来设计、制造产品。为了让机电一体化产品的设计、工程和制造更高效,一个集成性的软件平台就很重要。”西门子Mechatronics就是连接了机械和电子领域的解决方案。
西门子给予Mentor的投入,另外包括针对更多EDA相关企业的进一步收购,如Sarakol、Infolytica、Austemper等,显然是对上述策略的进一步补全。好比Infolytica在低频电磁模拟,包括电动马达、发电机和电磁设备设计支持方面的能力。所以凌琳说“电子设计、机械设计领域的协同”,“提供了整个闭环的系统设计。”其中的业务逻辑也变得一目了然。这是Mentor受西门子影响之时,践行“工业化之路”的代表。
用时下比较流行的话来说即数字复刻版(或称数字孪生,digital twin)。这个词更像是个营销词汇,EDA的仿真、验证原本就属于典型的“数字复刻版”,是在芯片制造之前的数字复刻,只不过它是对微观世界的复刻。西门子收购Mentor以后的复刻,则既包含宏观世界的机械设计,也包含电子设计。在这套“闭环系统“中打造的数字复刻版,包含了整个生产环境或价值链:产品本身、产品的制造和性能,以及产品制造流程的完整复刻。在生产或制造前期,就对数字世界的产品、机器和设施设备进行仿真与优化,确保后续真实世界的制造生产。
西门子2018财年数字工厂业务营收129.32亿欧元,同比增长11%;西门子PLM技术软件(现已更名为西门子数字工业软件)一年营收约在42亿美元左右。无论是西门子的“数字工厂”,还是西门子数字工业软件公司,都能表征工业4.0带来的经济效益,似乎比单纯的EDA业务更有协同优势。不过也正因如此,Mentor的EDA厂商角色定位,令其在工业4.0+AI方面更具发言权。
在机器学习IP方面,Mentor提供Catapult HLS AI/ML设计套装,帮助芯片架构师和设计师理解如何利用机器学习算法,以及构建起低功耗的硬件加速器。它能够展示如何将数字工具或DNN框架开发的算法,转为可综合(synthesizable)C/C++/SystemC代码,并最终综合为RTL芯片硬件设计语言。中间环节展示哪部分算法在处理器上执行更高效,以及若执行于IC专用硬件单元则能效比会是如何。[!--empirenews.page--]
这类方案是对AI应用大门的进一步拓宽,或许HLS高层次综合不仅代表了Mentor的策略,它更像是AI在各领域实现普及的趋势,包括工业制造。当然在此过程中,少不了应用层做验证,包括协同建模(co-modeling)、Virtual-ICE、SW debug、性能监测应用等各种应用验证技术。
除此之外,机器学习本身也在反哺EDA工具,比如在芯片测试期间,Tessent Yield Insight能够告诉客户和工厂,影响产量的错误究竟是出现在芯片设计环节还是制造环节;还有利用机器学习提升芯片良率的Calibre Machine Learning OPC(机器学习邻近效应修正)和Calibre LFD with Machine Learning;甚至利用半导体制造数据,来反馈设计优化流程方案,“比如说,同时采用X光和AOI(自动光学检测)的时候,我们可以判断哪些层级X光可以略过,因为X光是个慢速机器,经常会成为制造瓶颈。”
现在的智慧工厂有多智能?
AI的最有趣之处大概就在于,整个技术供应链上的诸多环节,既通过出售AI技术来赚钱,同时自己也是AI技术的使用者。Mentor这样的EDA厂商大概就是最好的例证。在探讨了智能制造解决方案提供商、AI芯片制造商以及EDA厂商这三个层级之后,我们大致上已经将AI现阶段在智慧工厂的价值勾勒出来了,即便从芯片制造商层级就不难发现,AI技术在工业制造中仍在发展初期。
除了文首提及ROJ在数字工厂方面借由西门子方案的实现,如今在世界范围内逐步发展智能制造乃至AI技术的先进工厂大约也不在少数。前不久我们踏入林德(Linde)东亚区远程控制中心,可对智慧工厂的发展程度做管中一窥。林德是目前全球最大的气体供应商,其业务也涵盖了为晶圆厂提供电子气体。不过这里,我们不探讨其作为半导体上游供应商的价值,而将其作为智慧工厂的实践者来审视一番。
林德在中国大陆地区有总共350公里的管道,部分气体就是通过管道供应给客户的。远程控制中心能够对管道系统、空气分离装置、制氢装置、食品级二氧化碳提纯,进行中央化的远程监控。远程监控设备,能够显示这些装置和系统的运行效率与状态,同时还能对数据进行分析。
林德公司大中华区远程运行中心总监陆贤表示:“当发现监控的动设备参数有上升趋势,就会结合当时的设备运行状态进行详细分析,及时做出调整和相应措施,包括对客户供应气体的可靠性。”“数据趋势往上走,虽然现在没有报警,但就要开始准备备件了。”“甚至通过对数据的分析,预测三个月后的情况。”这是数字工厂典型的实际应用了,看起来很像预测性维护。
“小型制氮现场是无人的,大型空分现场也只配备最少的人员。”“一些大型空分、液体空分会有一套先进控制系统,可根据客户的压力、纯度等波动,自动调整装置负荷。超过设定值,客户一侧则会切换到备用系统。”
而在林德远程控制中心的数字化程度中,让人感受“数字化”程度最深的是针对宁波的数字化管网控制。“宁波有82公里长的氮气、氧气、氢气系统装置,沿着永江穿越市区。”在出现压差较大等情况,发生报警时,远程控制中心就需要做出响应。
控制中心的图形化界面里,显示了整个宁波的俯瞰3D图——地图通过无人机拍摄并做建模,其上清晰描绘林德气体管线途经的区域,甚至包括埋地管线。和谷歌地球一样,远程控制中心的操作人员可对其进行任意放大缩小操作,观察气体管道状况,查看管道实时数据,包括管道直径、压力、材料、所在高度等;甚至还能调取周期性的现场巡检视频。
在真正的机器学习实现上,“我们正在实施一个专家分析系统,这个系统就是运用机器学习相关技术,通过数据的自动采集、分析,定期或不定期地完善搭建的模型,做到分析结果精确、运行标准设置精确。”陆贤表示。
“我们未来运行现场智能化包括,机器自我学习,帮助我们更安全、高效、可靠地运行装置;建立更加精准和有效的装置能耗模型,监控并优化能源消耗情况;建立更智能的运行培训工具——准确模拟空分实际运行,用以更高效地培养我们的工程师;大数据分析工具开发,预测空分设备未来的运行情况。”林德大中华区消费市场营销总监陈闻翊表示。[!--empirenews.page--]
林德的远程控制中心实则已经是现阶段全球范围内,在智能程度上比较领先的工厂中枢了,即便其气体产品在生产领域具有一定的特殊性。其数字化程度早已颠覆我们对传统工厂的认知,不过机器学习的应用仍在开发前期,包括预测性维护的进一步完善也在他们的规划中。
W.K. Choi在向我们解释BISTel理念中的AI演进阶段时,将智慧工厂的付诸实现比作一次旅行。其中第一阶段为具备AI能力的应用,这一阶段是在传感器、生产流程、设备、工厂和设施中增加智能层,智能模块跑在云IoT平台上,实现最佳流程控制、最大化的自动化,并向自适应智能迈出一大步。但“这个过程不是一夜之间就能完成的,它常常需要耗费3年时间。”
第二阶段,具备AI能力的工程系统。即向工程系统增加智能,这个阶段需要大数据环境,智能模块(inter-module)在系统、传感器和设备间共享信息。所有的模块彼此相互学习,相互共享信息,而且是以自动化、有效的方式,还包括知识库的更新。第三阶段,具备AI能力的企业。这个阶段,每个工程系统(inter-systems)与工厂中的其他软件系统分享信息和知识,如MES、ERP、维护系统等。系统间实现互通与协作。
即便BISTel认为,我们现在正处在第二阶段,实际就我们的观察,更多的制造工厂仍在第一阶段构建时期。不过这也正表明AI在工业4.0时代的发展潜力,这仍是惠及整个工业制造垂直领域的契机和利润增长点。
本文为《国际电子商情》姐妹网站《电子工程专辑》12月刊杂志文章
相关文章