图源:ipopba/Stock.adobe.com
当你入了机器学习(ML)领域的门之后,很快就会发现,云端的数据存储和处理成本竟然如此之高。为此,许多企业都上了内部部署基础设施的车,试图通过这些设施来承载其ML工作负载,从而限制上述成本。可即便如此,这些内部的数据中心还是会带来诸如功耗增加等代价,尤其是在规模较大的情况下。而功耗增加,就意味着电费支出更高,还会给设备散热制造麻烦,对可持续发展也会构成不利影响。
在云服务和内部部署场景中,这些开销与输入到中心枢纽的数据量直接相关。而解决的办法,就是在数据到达枢纽之前,尽可能过滤掉其中多余的部分,这就需要借助边缘计算系统,在尽可能接近数据采集来源的地方分析输入数据。
当然,这些边缘计算系统能够实现这种改变的前提,在于它们自身必须具备高能效,而新一代的处理器恰在此时悄然面世。这些处理器能够实现三倍于其他指令集架构(ISA)设备的单位性能能效。
边缘ML中的:指令更少,功耗更低
ML与边缘计算的融合,使智能设备获得了自主决策和实时适应的能力。对这类数据处理层次的需求与处理器技术的进步不谋而合,后者已经应用到了以下联网边缘应用中:
● 可穿戴设备:配备RISC-V处理器的健身追踪器可在设备上执行活动识别和健康监测,实时向用户提供个性化的建议和反馈。
● 智能楼宇:RISC-V处理器已经运用到楼宇自动化设备中,这些设备可以实时执行物体检测、异常识别、智能自动化和安全防护。
● 机器人:配备RISC-V处理器的工业机器人可以实时处理图像和检测物体,从而适应不断变化的环境,并自主执行复杂任务。
RISC-V将在转变各种应用场景的过程中持续发挥关键作用,这部分源于它具有开放、标准化的ISA以及高计算效率,可简化复杂AI算法在边缘设备上的实现。这种效率源自RISC-V架构最基本的构件:指令集。
RISC-V以简化的ISA为基础,具有一套基本的整数指令(RV32I或RV64I),同时处理器架构师可以添加可选扩展,以适应各种使用场景。其中,有两个关键性的扩展显著提高了RISC-V处理器的ML运算能力:
● 向量扩展 (V):该扩展提供了向量运算支持,这对高效矩阵乘法和许多ML算法中的基本运算而言是至关重要的。向量扩展可以让处理器在多个数据元素上同时执行多种运算,从而显著提高性能。
● 压缩扩展 (C):该扩展引入了压缩指令,编码所需的位数更少,因此代码量更小、内存占用更低。这对内存资源有限的边缘设备尤为重要。
结合这些扩展,RISC-V处理器可在执行ML工作负载时实现高性能和高效率。RISC-V处理器IP公司SiFive正是借助向量扩展和其他微体系结构创新,实现了比竞品高30%至40%的能效。[1]
实际上,有研究表明,RISC-V设备在CPI方面往往优于大多数现有指令集架构,这里的CPI是指执行一条指令所需的平均时钟周期数。[2]这些测试表明,RISC-V设备有能力在保持热效率的同时,在更长的时间内执行复杂的ML任务。
RISC-V生态系统和边缘ML工具
RISC-V的模块化ISA尤其适合开发紧凑型高能效处理器。它的指令集更加直接,有助于优化设计、缩短芯片设计和验证时间、降低成本,当然还能降低功耗。
要在终端系统中实现所有这些优势,最终还是要靠开发人员。RISC-V技术为何能在边缘计算环境中得到快速应用?基于开放标准的处理器硬件,以及围绕它而产生并且共同成长的软件和工具生态系统,可谓功不可没。
LLVM和GCC等流行的编译器现在都支持RISC-V,可确保生成的代码针对目标处理器进行优化,包括对ISA扩展的利用。与此同时,TensorFlow和PyTorch等流行的ML框架也正在向RISC-V移植,一众嵌入式软件企业也贡献出了自己的ML库、框架和中间件。
例如,Antmicro和Google Research合作为基于RISC-V的边缘ML应用开发了快速原型设计和投产前 (pre-silicon) 开发解决方案,该解决方案由Renode仿真框架和Kenning裸机运行时组成(图1)。这种联合解决方案可以让ML模型运行在模拟的RISC-V硬件上,帮助开发人员加快工程开发周期。最终,在投入昂贵的芯片制造工序之前,就可以对整个技术栈进行评估和优化。
图1 Antmicro与Google Research合作推出的RISC-V仿真框架。它为加速ML开发提供了硬件/软件协同设计流程 (图源:作者)
当然,RISC-V和ML开发工具都还有有改进空间。在这些生态系统共同发展的过程中,仍有一些挑战需要克服,包括以下方面:
● 成熟度:与更加成熟的架构相比,RISC-V生态系统相对较新,因而经验丰富的开发人员并不多,可供使用的工具和库也不够全面。
● 标准化:尽管有RISC-V International组织为供应商之间的合作和创新奠定基础,但在开放的生态系统中,产品的实现方式一定是多种多样的,这可能会带来架构碎片化和兼容性问题。持续的标准化工作对于维持平稳统一的开发流程至关重要。
● 硬件可及性:针对ML任务优化的商用RISC-V处理器市场仍然很有限。不过,随着需求的增加,硬件格局也将随之发展和扩大。
要应对这些挑战,就需要业界领导者、研究机构和开源社区开展合作与投资。我们没有任何理由认为业界或开源和开放标准社区会停止向RISC-V生态系统加以投入,也就没有理由认为RISC-V技术会停止在高能效边缘应用领域的发展。
RISC-V塑造边缘ML的未来
从实现的角度而言,精简指令集计算机 (RISC) 和复杂指令集计算机 (CISC) 之间的争论在很大程度上已经过时。现在,CPU的效率和性能主要取决于它的微架构,而架构又是通过其ISA和用于制造物理芯片的制程节点来实现的。
随着RISC-V和边缘ML市场的发展,我们将持续见证硬件创新和更加专业化的RISC-V处理器。这些处理器可能会包含专用的加速器、优化的内存架构和其他各种功能,以提高执行ML工作负载的整体性能和效率。
这些新增功能将继续拓宽采用RISC-V的边缘设备的应用领域,为其在从智能家居和医疗保健设备到工业自动化系统和自动驾驶汽车等各个领域的部署铺平道路。凭借如此广泛的应用范围,基于RISC-V的处理器技术将持续作为智能、互联边缘ML系统的基本构件——这一趋势已在多个领域的实际应用中占据主导地位。
随着RISC-V生态系统不断成熟、开发人员对该架构日益熟悉,更多的创新应用将不断涌现,实现更加出色的ML应用。未来将是智能、互联和高效创新的时代。
参考资料
[1] SiFive website, n.d., accessed February 16, 2024, https://www.sifive.com/.
[2] Wajid Ali. "Exploring Instruction Set Architectural Variations: x86, ARM, and RISC-V in Compute-Intensive Applications," Engineering: Open Access 1, no. 3, (2023):157–162.
作者简介
Brandon是一位有超过十年经验的深度技术记者、讲述者和技术作家,从软件初创公司到半导体巨头都是他曾经报道过的对象。他关注的领域包括嵌入式处理器、硬件、软件和工具,因为它们都与电子系统集成、物联网/工业4.0部署和边缘人工智能等用例有关。他还是一名出色的播客、视频博主、活动主持人和会议发言人,并曾在多家电子工程贸易出版物中担任主编和技术编辑。Brandon在不出席B2B技术受众的大型活动时,会通过电视指导菲尼克斯地区的体育特许经营公司。