AI将成就RISC-V,就像当年手机成就了Arm

发布时间:2024-08-20  

每年的滴水湖中国RISC-V产业论坛(以下简称滴水湖论坛),都是观察RISC-V生态发展情况的窗口。今年,除了戴伟民(中国RISC-V产业联盟理事长;芯原股份创始人、董事长兼总裁)照例宣布了去年参与论坛的10款芯片产品已经有9款量产或大规模出货以外,或许有两个比较重要的依据,可作为观察RISC-V生态现状的参考。

其一是林豪(重庆物奇微电子股份有限公司CTO)提到,作为全系产品基于RISC-V架构的一家企业,物奇微电子2017年首款芯片问世,2019年达到千万级出货量,今年则预计能够让出货量上亿。这家公司的产品当前着眼于Wi-Fi、蓝牙音频、边缘计算及PLC电力载波芯片。

在我们看来物奇微电子是代表了RISC-V在嵌入式市场典型应用的一家企业,出货量表现的则是RISC-V芯片的快速上量。林豪甚至提到由于物奇当前产品线越来越广,其自研RISC-V架构已经不足以满足不同产品线的不同需求,寻求与业界更多合作伙伴的合作。

其二是今年的滴水湖论坛有一大半时间都是在探讨AI,乃至生成式AI。谢涛(北京大学讲席教授;RISC-V国际基金会人工智能与机器学习专委会主席)甚至说,“PC成就了x86生态,手机成就了Arm生态,而AI成就了RISC-V生态”。并且他还提到今年RISC-V欧洲峰会,AI也成为议程的一大组成部分。

去年的这个时候,我们在探讨“”。而在AI HPC火热以来,RISC-V在很多人看来似乎已经成为AI未来发展的最佳选择——比如Sameer Wasson(MIPS CEO)就将2020年代,作为技术奇点的生成式AI,及数据驱动的资本投入,最终归结到RISC-V时代的到来。今年4月,RISC-V国际基金会理事会在基金会社区官宣,2024年RISC-V国际基金会顶级关键战略优先级为:人工智能/机器学习、安全、车载。

所以今年的RISC-V新品陈列中,就能看到包含AI SoC、AI CPU在内的RISC-V芯片。这在任何CPU指令集的发展历程中都是相当罕见的:短短四届滴水湖论坛,我们见证了RISC-V在时代洗礼过程中的一路狂飙,AI又为RISC-V这辆跑车提供了一次氮气加速的机会。借着参会企业的RISC-V新品介绍,我们来看看走进AI HPC的RISC-V芯片或技术,现在发展成了什么样。

紧耦合与松耦合的RISC-V AI芯片

谢涛将RISC-V AI芯片分成两种不同的模式。其中RISC-V + AI为紧耦合模式,也就是通过指令集扩展实现AI加速。理论上,Arm Neon, Helium都属于此类紧耦合模式。还有一类AI + RISC-V,以松耦合模式,在RISC-V CPU的基础上,再增加协处理器或加速器——Arm家族的代表应该是Ethos NPU。

恰巧本届滴水湖论坛上,有两款推介的新品代表了这两种模式。其一是可以代表松耦合、来自北京奕斯伟计算股份有限公司的EIC7702X/EIC7700X。

这两颗芯片的CPU部分采用基于RISC-V的64位乱序执行核心SiFive P550——这是个13级流水线、3发射、乱序管线的高性能RISC-V核;并且搭配奕斯伟自研的NPU——也就是专用的AI加速单元。NPU部分达成的Int8算力19.95 TOPS,Int16算力9.975 TOPS,FP16算力9.975 FLOPS。EIC7700X基础款即为上述配置。

据说这是EIC7702X的首次亮相

而EIC7702X,是将两个7700X的die封装到一起,基于die-to-die互联(8-lane 112GBps SerDes);理论上也就实现了双倍性能,典型的AI及浮点性能数字是在前述EIC7700X的基础上翻番。“能够胜任CV类大模型,及最新大模型的推理负载。”

路向峰(北京奕斯伟计算技术股份有限公司智能计算事业部交付中心中心长)介绍说,最高64GB LPDDR4/4X/5内存的支持,集成视频编解码单元等配置,以及引入的诸多“指令优化、数据流优化”,这些“不仅提升了AI性能,计算单元利用率也得到了极大提升”。

以下是路向峰给出这两颗芯片的AI性能数据,在以往典型的CNN网络之外,这张图的右下角也给出了Llama 2-7b模型的推理成绩。“芯片支持的深度学习框架包括TensorFlow, PyTorch等;大模型也在适配中,除了Llama2以外,不久以后还会做更多的适配和支持。”路向峰在演讲中说。

当然这两颗芯片还有3D高性能图形加速、视频编解码及表现出低功耗的特性。尤其视频解码搭配CV类算法和模型应用,令EIC77系列芯片适配较为广泛的应用方向——这些并非本文要阐述的重点,此处不做赘述。奕斯伟定位EIC77系列的应用方向包括边缘计算(如机器视觉、机器人与自动系统、生产安全等)、AI PC、AI加速器。

其中EIC7700X应当是已经开售的,展区有展示其开发板及对应的AI PC产品;AI加速卡则已经在路上。而EIC7702X,作为基于chiplet或MCM的RISC-V芯片,在国产RISC-V芯片中,应该说是相当少见的;而且这还是个RISC-V AI芯片,也就显得更加难得。

另外一款可表现RISC-V AI芯片紧耦合模式的,是来自进迭时空(杭州)科技有限公司的SpacemiT Key Stone K1,标称为“全球首款8核RISC-V AI CPU”。这颗芯片采用进迭时空自研RISC-V智算核X60,8个核心,频率最高2.0GHz;规格表中给出的性能数据是CPU算力 >50KDMIPS;AI算力则标称为2TOPS。

除了自研的X60核心单核算力比Cortex-A55高30%以上,段佳惠(进迭时空(杭州)科技有限公司品牌营销与公众关系总监)也在演讲中强调了22nm的K1芯片,在功耗和效率方面相比竞品的优势;比如同工艺下,比竞品8核A55芯片功耗低28%,相比16nm的NXP i.mx93,能效领先1.16倍(KDMIPS/W)。

不过更重要的在于,作为“紧耦合”RISC-V AI CPU,X60核扩展了16条AI指令。段佳惠还将其与Neon做了比较,“相同AI算法,X60指令仅为Arm Neon的~20%”。在开发生态方面,进迭时空的AI CPU自然也接入了全球主流AI推理生态,故而其展位也特别展示了本地LLM(Llama2-7b)的部署和推理;标称为几乎“支持所有AI模型”。

这颗K1芯片的应用领域涵盖NAS、AI PC笔记本、智能机器人、边缘计算、工业控制等——其官网的产品中心也列出了MUSE系列笔记本、开发板和盒子。在产品规划图中,这家公司的Key Stone系列似乎未来还有12核的K2,和更高性能的K3预备走向市场...

可见AI接下来要成就RISC-V生态还是有迹可循的。

AI为什么能推动RISC-V生态发展?

梁中书(达摩院(上海)科技有限公司研发总监)在圆桌环节说:“毫无疑问,RISC-V现在最重要的发展方向就是AI。”他说国内很多企业都推出了支持vector矢量扩展的AI加速实现,“matrix方面也有进展,达摩院就在玄铁CPU系列中加入了对matrix的支持,通过20多条扩展指令实现了单核2TOPS算力”;“紧耦合模式,需要取长补短,推进matrix指令集社区的标准化。”

“而AI大算力的芯片形态应当是松耦合的,RISC-V + AI加速器的组合。”梁中书谈到,“而开发工具链、基本软件库的适配和支持,对实现松耦合AI大算力芯片形态都很重要。”

谈AI绕不开的话题就是英伟达,即便英伟达的AI市场主要在数据中心和训练上。而抛开芯片绝对算力差距不谈,令大部分AI芯片企业感到汗颜的主要是以CUDA为基础的NVIDIA AI软件栈和解决方案。当我们开始探讨基于RISC-V的AI大算力芯片时,即便在推理场景乃至AI PC和更多端侧应用之上,这也是个重要议题。

论坛圆桌环节有个议题是相关AI平板的。彭建英(中国RISC-V产业联盟秘书长;芯来智融半导体科技(上海)有限公司CEO)就提到芯来的超标量乱序核IP具备性能方面的优势,“RISC-V CPU,加上可扩展性,性能上要(在智能数字教育领域)满足需求不是问题,关键是怎么去突破软件,包括底层软件、操作系统、上层应用。”

谢涛给出的数据是,自CUDA诞生以来,英伟达已经为CUDA生态投入了120亿美元;而且目前最新的数据是,CUDA开发者数量已经来到了450万——且基于历史数据,这个值还在快速增长。

其他绝大部分AI芯片市场参与者的软件栈各自为战,生态呈现出“小、散、弱”的局面。硬件架构的分散,指令集的不统一,以及软件生态的碎片化,也都导致开发者在不同生态间的迁移成本很高。即便兼容CUDA是某些AI生态的解决方案,但这“只能解燃眉之急”,“长期仍然受制于人”。

以英伟达CUDA生态相对封闭的特点,谢涛提出历史上能够击败闭源霸主生态的往往是一个开源的生态,就好像Android对阵iOS,Linux对阵Windows一样。而RISC-V指令集本身,恰好是开源的,而且目前已经有了相当的芯片出货量及开发生态基础。

芯原与谷歌携手合作的开源项目Open Se Cura,配备基于RISC-V的环境感知和传感系统,包括系统管理、机器学习与硬件信任根功能…

比较有趣的是,今年WAIC世界人工智能大会上,RISC-V国际基金会理事长戴路说RISC-V是最适合AI的指令集架构;去,他也说RISC-V非常适合做AI计算。这次谢涛给出基于RISC-V构建AI算力优势的解释是这样的:

RISC-V的开放与灵活性必然是第一要素。AI工作负载变化快,梁中书也提到AI负载有其“个性化”,需要优化才能达到最佳效率。而RISC-V的灵活性,决定了可以根据需求来定制AI加速器。练维汉也曾说过,Tenstorrent最早做CPU设计时考虑过Arm,但Arm“限制很多,经常需要去问Arm可不可以这样、可不可以那样”,还会得到否定的答案。

对应的,高度可扩展性也是论坛现场多位嘉宾提到RISC-V适用AI的关键。根据需要添加自定义指令集扩展,增强AI计算性能与效率。前文提到松耦合、紧耦合的RISC-V AI芯片皆可反映上述这两点。另外谢涛还提到了RISC-V的功耗、效率优势,以及作为开源指令集获得全球生态系统和社区支持。

即便当前RISC-V仍然面临着生态碎片化、商业企业对RISC-V产品的资源投入不足、缺少组织统筹,及产学研协同不紧密、未形成有效合力等问题;谢涛认为,采用自下而上的思路,以RISC-V指令集扩展+开源系统软件栈(并推成标准)为“公共开源根”,去利用国际开放/开源社区“长叶”(基于开源根的商业软件/芯片),形成“根技术开源”与“叶技术竞争”的技术生态优势;

加上先从端与边缘AI起步,推动软件生态发展和应用,带动云上软件生态,“农村包围城市”,与现有巨擘抗衡;并依托日益强大的RISC-V软硬件生态,聚焦全球开源工具创新......最终是能够达成Android→iOS或Linux→Windows的竞争格局的。

格外值得一提的是,在谢涛看来Triton(开源的GPU编程语言)和SYCL(和CUDA同层级的跨平台抽象层)是RISC-V AI生态发展的关键——这一点。Triton实现了硬件无关的中间层表示,生态兼容负担小,编程难度相较CUDA更低,“仍能实现接近于CUDA极限生态的性能”;而SYCL被谢涛类比为“编程模型中的RISC-V”(相对的CUDA是编程模型中的x86)。

当然,这就是更为长远的RISC-V AI未来了。

半导体热门技术的最佳辅助

滴水湖论坛现场的产品介绍实际并不单纯集中在AI上,比如基于RISC-V的车规级MCU、工业以太网MCU,乃至FTTR光网络芯片、面向AR/VR的高性能SoC这类相对新兴的应用。

有些类型的芯片还相当颠覆我们的认知,比如说芯昇科技的超级SIM芯片,基于RISC-V的同时,还进行了指令扩展——即便规模相对较小,但也在加速特定算子、形成专用指令、解决具体应用场景的问题上大幅提升了效率。还有珠海笛思科技有限公司的Wi-Fi 6芯片,基于通信+AI融合的思路,其自定义指令集基于RISC-V VLIW和SIMD对无线通信系带领域和经典AI领域算法做了重点优化…

这些其实都能看出RISC-V的灵活性在不同应用领域的呈现,也是非开源的竞品指令集完全不具备的。

去年我们在,曾提到这家公司的独特商业模式:面向AI芯片客户提供基于RISC-V CPU的chiplet。当时我们曾判断,RISC-V的灵活和扩展性,可能会一定程度颠覆IP供应商的市场定位。它让更多的IP供应商不得不开始去做更完整的chiplet方案。

Sameer Wasson在谈当下MIPS的IP业务时,于“满足生成式AI需求”,就演变为从核心、到集群、再到chiplet。而chiplet作为摩尔定律停滞时代的算力扩展解决方案之一,在未来将变得越来越不可或缺。也有类似的思路。

考虑RISC-V的灵活和扩展能力,我们始终认为,在这个芯片设计需以应用为导向的时代里,几个关键要素是共同出现、相辅相成的:异构架构、chiplet、先进封装,以及RISC-V。

从RISC-V作为半导体领域其他几项关键技术的最佳辅助这个角度来看,RISC-V也是摩尔定律停滞时代,持续推进算力和系统性能向前的绝对主力。虽然这个说法有些武断,却正逐渐成为AI时代越来越多人的共识。

即便现在的RISC-V及其生态还面临各种各样的问题,比如陈康(珠海笛思科技有限公司CEO)提到的,PPA相比竞品的竞争力不足、生态碎片化问题令产品移植难度更大、类似三角函数这样的基础指令都尚未标准化——给编译器、工具链和上层应用的构建造成巨大挑战等...相信在RISC-V生态疾速发展的过程中,这些问题都会得到解决。

不单是技术层面软硬件生态的发展,还在于诸如2018年RISC-V产业联盟成立,后续RISC-V专利联盟启动,民办非企业单位“上海开放处理器产业创新中心”筹建,及包括滴水湖中国RISC-V产业论坛、“芯原杯”全国嵌入式软件开发大赛等行业活动的举办都会让RISC-V生态在保持开放的同时,走向健全和完善——而且要知道,这个过程是在短短几年内走完的。

文章来源于:国际电子商情    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    的数据了二、说说usb摄像头的和usb-wifi的支持吧,这两个东西得看你的设备是什么芯片,先说usb摄像头吧,关于摄像头的驱动驱动配置比较简单,只是关于驱动接口有两种版本,分别是V4L和V4L2,从......
    为例,如下图所示,我们可以看到它有5组VDD/VSS,并且会要求每一组VDD/VSS都要接上。实际上,这多组VDD内部是互相连接在一起的,既然这样,那么芯片厂家为什么不只留一组出来呢?或者......
    嵌入式单片机产品开发设计框架;老板突然要给你一个新的需求,要你做一款自己不熟悉的产品,第一感觉都是懵的,不知道这个产品的工作原理是什么?用的是什么方案,什么芯片? 我们......
    。 ▌汽车缺的是什么芯? 按照功能分类的话,芯片有核心控制系统、智能驾驶系统、交互体验系统三类,核心控制系统芯片是最大的缺货类型,它是车的控制中枢,最常见的是MCU。 长城就表示,旗下哈弗H6......
    dsp收音机用什么芯片最好 pll与dsp收音机区别;dsp收音机用什么芯片最好 对于DSP(数字信号处理)收音机,选择最好的芯片取决于您的具体需求和预算。以下是一些常见的高性能DSP芯片品牌,供您......
    Intel宣布未来专注八大方向:PC处理器正式打入冷宫;PC芯片依然是关键性的行业但其盈利能力、上升空间越发有限,这也是为什么半导体一哥Intel会被扣上“牙膏厂”的帽子。 当然,Intel应该......
    技术:同一芯片该选什么样的封装能出好质量?; 来源:内容来自中国LED网 ,谢谢。 现在LED的采购询价时一般都会问光源用的是什么芯片,熟悉一些的还会问一下光源的芯片大小,然后再根据相同的芯片......
    科、英伟达和高通等公司的利润降低,这也是为什么芯片开发商正在重新考虑他们如何创造先进的设计和使用先进制程。    AMD公开宣布,计划在2024年使用 N3制程生产部分基于Zen 5的设计,而......
    STM32单片机芯片介绍;无论做什么芯片的开发,都需要看芯片手册及其附带的资料。针对STM32单片机,我们能够借鉴的手册有《Cortex-M3权威指南(中文)》《STM32中文参考手册》(通常......
    领域。车企究竟在造什么芯?图的又是什么? 谁在造芯? 盖世汽车梳理发现,目前入局造芯的企业既包括蔚小理、零跑等新势力公司,也有比亚迪、吉利等传统车企,但切......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>