AI将成就RISC-V，就像当年手机成就了Arm

发布时间: 2024-08-20

来源: 国际电子商情

每年的滴水湖中国RISC-V产业论坛（以下简称滴水湖论坛），都是观察RISC-V生态发展情况的窗口。今年，除了戴伟民（中国RISC-V产业联盟理事长；芯原股份创始人、董事长兼总裁）照例宣布了去年参与论坛的10款芯片产品已经有9款量产或大规模出货以外，或许有两个比较重要的依据，可作为观察RISC-V生态现状的参考。

其一是林豪（重庆物奇微电子股份有限公司CTO）提到，作为全系产品基于RISC-V架构的一家企业，物奇微电子2017年首款芯片问世，2019年达到千万级出货量，今年则预计能够让出货量上亿。这家公司的产品当前着眼于Wi-Fi、蓝牙音频、边缘计算及PLC电力载波芯片。

在我们看来物奇微电子是代表了RISC-V在嵌入式市场典型应用的一家企业，出货量表现的则是RISC-V芯片的快速上量。林豪甚至提到由于物奇当前产品线越来越广，其自研RISC-V架构已经不足以满足不同产品线的不同需求，寻求与业界更多合作伙伴的合作。

其二是今年的滴水湖论坛有一大半时间都是在探讨AI，乃至生成式AI。谢涛（北京大学讲席教授；RISC-V国际基金会人工智能与机器学习专委会主席）甚至说，“PC成就了x86生态，手机成就了Arm生态，而AI成就了RISC-V生态”。并且他还提到今年RISC-V欧洲峰会，AI也成为议程的一大组成部分。

去年的这个时候，我们在探讨“”。而在AI HPC火热以来，RISC-V在很多人看来似乎已经成为AI未来发展的最佳选择——比如Sameer Wasson（MIPS CEO）就将2020年代，作为技术奇点的生成式AI，及数据驱动的资本投入，最终归结到RISC-V时代的到来。今年4月，RISC-V国际基金会理事会在基金会社区官宣，2024年RISC-V国际基金会顶级关键战略优先级为：人工智能/机器学习、安全、车载。

所以今年的RISC-V新品陈列中，就能看到包含AI SoC、AI CPU在内的RISC-V芯片。这在任何CPU指令集的发展历程中都是相当罕见的：短短四届滴水湖论坛，我们见证了RISC-V在时代洗礼过程中的一路狂飙，AI又为RISC-V这辆跑车提供了一次氮气加速的机会。借着参会企业的RISC-V新品介绍，我们来看看走进AI HPC的RISC-V芯片或技术，现在发展成了什么样。

紧耦合与松耦合的RISC-V AI芯片

谢涛将RISC-V AI芯片分成两种不同的模式。其中RISC-V + AI为紧耦合模式，也就是通过指令集扩展实现AI加速。理论上，Arm Neon, Helium都属于此类紧耦合模式。还有一类AI + RISC-V，以松耦合模式，在RISC-V CPU的基础上，再增加协处理器或加速器——Arm家族的代表应该是Ethos NPU。

恰巧本届滴水湖论坛上，有两款推介的新品代表了这两种模式。其一是可以代表松耦合、来自北京奕斯伟计算股份有限公司的EIC7702X/EIC7700X。

这两颗芯片的CPU部分采用基于RISC-V的64位乱序执行核心SiFive P550——这是个13级流水线、3发射、乱序管线的高性能RISC-V核；并且搭配奕斯伟自研的NPU——也就是专用的AI加速单元。NPU部分达成的Int8算力19.95 TOPS，Int16算力9.975 TOPS，FP16算力9.975 FLOPS。EIC7700X基础款即为上述配置。

据说这是EIC7702X的首次亮相

而EIC7702X，是将两个7700X的die封装到一起，基于die-to-die互联（8-lane 112GBps SerDes）；理论上也就实现了双倍性能，典型的AI及浮点性能数字是在前述EIC7700X的基础上翻番。“能够胜任CV类大模型，及最新大模型的推理负载。”

路向峰（北京奕斯伟计算技术股份有限公司智能计算事业部交付中心中心长）介绍说，最高64GB LPDDR4/4X/5内存的支持，集成视频编解码单元等配置，以及引入的诸多“指令优化、数据流优化”，这些“不仅提升了AI性能，计算单元利用率也得到了极大提升”。

以下是路向峰给出这两颗芯片的AI性能数据，在以往典型的CNN网络之外，这张图的右下角也给出了Llama 2-7b模型的推理成绩。“芯片支持的深度学习框架包括TensorFlow, PyTorch等；大模型也在适配中，除了Llama2以外，不久以后还会做更多的适配和支持。”路向峰在演讲中说。

当然这两颗芯片还有3D高性能图形加速、视频编解码及表现出低功耗的特性。尤其视频解码搭配CV类算法和模型应用，令EIC77系列芯片适配较为广泛的应用方向——这些并非本文要阐述的重点，此处不做赘述。奕斯伟定位EIC77系列的应用方向包括边缘计算（如机器视觉、机器人与自动系统、生产安全等）、AI PC、AI加速器。

其中EIC7700X应当是已经开售的，展区有展示其开发板及对应的AI PC产品；AI加速卡则已经在路上。而EIC7702X，作为基于chiplet或MCM的RISC-V芯片，在国产RISC-V芯片中，应该说是相当少见的；而且这还是个RISC-V AI芯片，也就显得更加难得。

另外一款可表现RISC-V AI芯片紧耦合模式的，是来自进迭时空（杭州）科技有限公司的SpacemiT Key Stone K1，标称为“全球首款8核RISC-V AI CPU”。这颗芯片采用进迭时空自研RISC-V智算核X60，8个核心，频率最高2.0GHz；规格表中给出的性能数据是CPU算力 >50KDMIPS；AI算力则标称为2TOPS。

除了自研的X60核心单核算力比Cortex-A55高30%以上，段佳惠（进迭时空（杭州）科技有限公司品牌营销与公众关系总监）也在演讲中强调了22nm的K1芯片，在功耗和效率方面相比竞品的优势；比如同工艺下，比竞品8核A55芯片功耗低28%，相比16nm的NXP i.mx93，能效领先1.16倍（KDMIPS/W）。

不过更重要的在于，作为“紧耦合”RISC-V AI CPU，X60核扩展了16条AI指令。段佳惠还将其与Neon做了比较，“相同AI算法，X60指令仅为Arm Neon的～20%”。在开发生态方面，进迭时空的AI CPU自然也接入了全球主流AI推理生态，故而其展位也特别展示了本地LLM（Llama2-7b）的部署和推理；标称为几乎“支持所有AI模型”。

这颗K1芯片的应用领域涵盖NAS、AI PC笔记本、智能机器人、边缘计算、工业控制等——其官网的产品中心也列出了MUSE系列笔记本、开发板和盒子。在产品规划图中，这家公司的Key Stone系列似乎未来还有12核的K2，和更高性能的K3预备走向市场...

可见AI接下来要成就RISC-V生态还是有迹可循的。

AI为什么能推动RISC-V生态发展？

梁中书（达摩院（上海）科技有限公司研发总监）在圆桌环节说：“毫无疑问，RISC-V现在最重要的发展方向就是AI。”他说国内很多企业都推出了支持vector矢量扩展的AI加速实现，“matrix方面也有进展，达摩院就在玄铁CPU系列中加入了对matrix的支持，通过20多条扩展指令实现了单核2TOPS算力”；“紧耦合模式，需要取长补短，推进matrix指令集社区的标准化。”

“而AI大算力的芯片形态应当是松耦合的，RISC-V + AI加速器的组合。”梁中书谈到，“而开发工具链、基本软件库的适配和支持，对实现松耦合AI大算力芯片形态都很重要。”

谈AI绕不开的话题就是英伟达，即便英伟达的AI市场主要在数据中心和训练上。而抛开芯片绝对算力差距不谈，令大部分AI芯片企业感到汗颜的主要是以CUDA为基础的NVIDIA AI软件栈和解决方案。当我们开始探讨基于RISC-V的AI大算力芯片时，即便在推理场景乃至AI PC和更多端侧应用之上，这也是个重要议题。

论坛圆桌环节有个议题是相关AI平板的。彭建英（中国RISC-V产业联盟秘书长；芯来智融半导体科技（上海）有限公司CEO）就提到芯来的超标量乱序核IP具备性能方面的优势，“RISC-V CPU，加上可扩展性，性能上要（在智能数字教育领域）满足需求不是问题，关键是怎么去突破软件，包括底层软件、操作系统、上层应用。”

谢涛给出的数据是，自CUDA诞生以来，英伟达已经为CUDA生态投入了120亿美元；而且目前最新的数据是，CUDA开发者数量已经来到了450万——且基于历史数据，这个值还在快速增长。

其他绝大部分AI芯片市场参与者的软件栈各自为战，生态呈现出“小、散、弱”的局面。硬件架构的分散，指令集的不统一，以及软件生态的碎片化，也都导致开发者在不同生态间的迁移成本很高。即便兼容CUDA是某些AI生态的解决方案，但这“只能解燃眉之急”，“长期仍然受制于人”。

以英伟达CUDA生态相对封闭的特点，谢涛提出历史上能够击败闭源霸主生态的往往是一个开源的生态，就好像Android对阵iOS，Linux对阵Windows一样。而RISC-V指令集本身，恰好是开源的，而且目前已经有了相当的芯片出货量及开发生态基础。

芯原与谷歌携手合作的开源项目Open Se Cura，配备基于RISC-V的环境感知和传感系统，包括系统管理、机器学习与硬件信任根功能…

比较有趣的是，今年WAIC世界人工智能大会上，RISC-V国际基金会理事长戴路说RISC-V是最适合AI的指令集架构；去，他也说RISC-V非常适合做AI计算。这次谢涛给出基于RISC-V构建AI算力优势的解释是这样的：

RISC-V的开放与灵活性必然是第一要素。AI工作负载变化快，梁中书也提到AI负载有其“个性化”，需要优化才能达到最佳效率。而RISC-V的灵活性，决定了可以根据需求来定制AI加速器。练维汉也曾说过，Tenstorrent最早做CPU设计时考虑过Arm，但Arm“限制很多，经常需要去问Arm可不可以这样、可不可以那样”，还会得到否定的答案。

对应的，高度可扩展性也是论坛现场多位嘉宾提到RISC-V适用AI的关键。根据需要添加自定义指令集扩展，增强AI计算性能与效率。前文提到松耦合、紧耦合的RISC-V AI芯片皆可反映上述这两点。另外谢涛还提到了RISC-V的功耗、效率优势，以及作为开源指令集获得全球生态系统和社区支持。

即便当前RISC-V仍然面临着生态碎片化、商业企业对RISC-V产品的资源投入不足、缺少组织统筹，及产学研协同不紧密、未形成有效合力等问题；谢涛认为，采用自下而上的思路，以RISC-V指令集扩展+开源系统软件栈（并推成标准）为“公共开源根”，去利用国际开放/开源社区“长叶”（基于开源根的商业软件/芯片），形成“根技术开源”与“叶技术竞争”的技术生态优势；

加上先从端与边缘AI起步，推动软件生态发展和应用，带动云上软件生态，“农村包围城市”，与现有巨擘抗衡；并依托日益强大的RISC-V软硬件生态，聚焦全球开源工具创新......最终是能够达成Android→iOS或Linux→Windows的竞争格局的。

格外值得一提的是，在谢涛看来Triton（开源的GPU编程语言）和SYCL（和CUDA同层级的跨平台抽象层）是RISC-V AI生态发展的关键——这一点。Triton实现了硬件无关的中间层表示，生态兼容负担小，编程难度相较CUDA更低，“仍能实现接近于CUDA极限生态的性能”；而SYCL被谢涛类比为“编程模型中的RISC-V”（相对的CUDA是编程模型中的x86）。

当然，这就是更为长远的RISC-V AI未来了。

半导体热门技术的最佳辅助

滴水湖论坛现场的产品介绍实际并不单纯集中在AI上，比如基于RISC-V的车规级MCU、工业以太网MCU，乃至FTTR光网络芯片、面向AR/VR的高性能SoC这类相对新兴的应用。

有些类型的芯片还相当颠覆我们的认知，比如说芯昇科技的超级SIM芯片，基于RISC-V的同时，还进行了指令扩展——即便规模相对较小，但也在加速特定算子、形成专用指令、解决具体应用场景的问题上大幅提升了效率。还有珠海笛思科技有限公司的Wi-Fi 6芯片，基于通信+AI融合的思路，其自定义指令集基于RISC-V VLIW和SIMD对无线通信系带领域和经典AI领域算法做了重点优化…

这些其实都能看出RISC-V的灵活性在不同应用领域的呈现，也是非开源的竞品指令集完全不具备的。

去年我们在，曾提到这家公司的独特商业模式：面向AI芯片客户提供基于RISC-V CPU的chiplet。当时我们曾判断，RISC-V的灵活和扩展性，可能会一定程度颠覆IP供应商的市场定位。它让更多的IP供应商不得不开始去做更完整的chiplet方案。

Sameer Wasson在谈当下MIPS的IP业务时，于“满足生成式AI需求”，就演变为从核心、到集群、再到chiplet。而chiplet作为摩尔定律停滞时代的算力扩展解决方案之一，在未来将变得越来越不可或缺。也有类似的思路。

考虑RISC-V的灵活和扩展能力，我们始终认为，在这个芯片设计需以应用为导向的时代里，几个关键要素是共同出现、相辅相成的：异构架构、chiplet、先进封装，以及RISC-V。

从RISC-V作为半导体领域其他几项关键技术的最佳辅助这个角度来看，RISC-V也是摩尔定律停滞时代，持续推进算力和系统性能向前的绝对主力。虽然这个说法有些武断，却正逐渐成为AI时代越来越多人的共识。

即便现在的RISC-V及其生态还面临各种各样的问题，比如陈康（珠海笛思科技有限公司CEO）提到的，PPA相比竞品的竞争力不足、生态碎片化问题令产品移植难度更大、类似三角函数这样的基础指令都尚未标准化——给编译器、工具链和上层应用的构建造成巨大挑战等...相信在RISC-V生态疾速发展的过程中，这些问题都会得到解决。

不单是技术层面软硬件生态的发展，还在于诸如2018年RISC-V产业联盟成立，后续RISC-V专利联盟启动，民办非企业单位“上海开放处理器产业创新中心”筹建，及包括滴水湖中国RISC-V产业论坛、“芯原杯”全国嵌入式软件开发大赛等行业活动的举办都会让RISC-V生态在保持开放的同时，走向健全和完善——而且要知道，这个过程是在短短几年内走完的。