算力256TOPS，典型功耗35W，存算一体芯片杀入智能驾驶

发布时间:

来源: 电子工程世界

国产智驾芯片有了新玩家

“最高物理算力256 TOPS，典型功耗35W，基于12nm制程工艺。”

5月10日，后摩智能发布首款基于存算一体架构的智驾芯片——鸿途™H30，并公布上述关键指标。

算力、数据和算法，并称AI的三大核心要素。其中，算力属于基础设施，又被称为新时代的原油。随着ChatGPT语言大模型的出现，AI迎来了自己的iPhone时刻，算力的重要性也愈加凸显。

走在最前的英伟达，不断推出更高算力的芯片，一些玩家选择了跟随，另外一些选择另辟道路，通过存算一体、量子计算等突破算力瓶颈。

后摩智能的存算一体芯片H30，便是一道新的解题思路，也让主机厂、Tier 1有了更多新选择。

飙升的算力需求，待打破的“存储、功耗”墙

英伟达旗舰AI芯片H100，随着AI生成式大模型受到广泛关注，售价近期一度被炒到46000美金。

H100是英伟达于去年推出的一款全新架构的GPU芯片。

8块H100，再加上4个NVLink可以组合一个DGX H100，AI算力高达32 PetaFlops。英伟达CEO黄仁勋称，20块H100就可以承载全球互联网的流量。

热衷自动驾驶的特斯拉CEO马斯克，不久前购买了数千块H100，笑称“看起来每个人和他们的狗此时都在买GPU。”

H100大热，体现了市场对于芯片算力需求飙升，时代进入了一个AI爆发的新阶段。

不过，算力飙升后也让大家看到了芯片面临的瓶颈，即：存储墙和功耗墙。

目前市面上的大多数芯片，均基于1945年提出的冯·诺依曼计算系统进行设计，计算和存储功能分别由中央处理器和存储器完成。

在这一架构中，每次计算需要先读取内存的数据，计算后再存回内存，大部分过程都在读取和存储数据。

处理器的性能跟随摩尔定律逐年提升，存储器发展滞后。

随着数据处理量增大，存储速度跟不上数据处理速度，形成了“存储墙”。数据在处理器和存储器之间来回搬运，还造成了功耗损失，形成了“功耗墙”。

为了拆掉两块墙，芯片领域提出存算一体的新架构，直接利用存储器进行数据处理，这种新架构具备大算力、低功耗、低延时等优点。

后摩智能创始人兼CEO吴强的偶像是Jim Keller，后者是操刀过特斯拉FSD芯片的大神。Jim Keller曾说过，“不满于常规的改良，而是要做底层的重构和创新。”

因此，两年前创立后摩智能时，吴强选择了一个不依赖先进工艺，通过底层架构创新来实现AI计算效率的新方向。

这就有了后来的基于存算一体架构的鸿途™系列芯片。

面向智能驾驶，H30已支持点云、BEV网络

“256TOPS是物理算力，不是市面上常说的稀疏虚拟算力。”吴强向大家介绍H30芯片时重点强调。

物理算力是指芯片的理论峰值算力。

有人将算法比作公式，将物理算力比作人的智商。从物理算力的维度，市面上已量产的国产智驾芯片，基本上都不如H30。

H30的能效比也非常高。

基于更为成熟的 SRAM 存储介质，采用数字存算一体架构，H30在INT8 数据精度下AI 核心IPU 能效比高达 15 Tops/W，是传统架构芯片的7 倍以上。

根据后摩实验室及MLPerf公开测试结果，以经典的基础网络Resnet50为例，在 Batch Size 等于1 和 8 的条件下，分别达到了 8700 帧/秒和 10300 帧/秒的性能，是英伟达基于8nm芯片性能的5.7倍和2.3倍。

简单来说，H30 在芯片性能提升2倍的同时，功耗减少了50%。

那么，这块芯片能做什么？

后摩智能将第一款芯片产品的应用场景选在了智能驾驶领域。

吴强认为，智能驾驶芯片一定是要无限接近于人脑的计算方式和效率，而存算一体的价值正在于此，与智能驾驶的终局需求天然吻合。

作为一款面向智能驾驶的芯片，H30对于当下热门的神经网络均可以支持。而且，H30的架构专门针对智能驾驶场景，在低延时下性能可以更加充分地展现。

后摩智能表示，一些高阶自动驾驶领域常用的经典CV网络和自动驾驶网络等，目前已经成功移植到H30上，比如点云网络、BEV网络等。

此外，基于H30的智驾方案已经部署在后摩智能合作伙伴的无人小车上。比如，后摩智能与新石器无人车合作的无人驾驶解决方案，便是基于存算一体芯片。

基于H30，后摩智能还打造了力驭智能驾驶硬件平台，作为主机厂面向智能驾驶的参考设计和评估平台。

官方数据显示，力驭的CPU算力为200Kdmips，AI算力达到256 TOPS（INT8物理算力）。

按照规划，基于第一代产品H30的力驭计算平台将在今年6月向Alpha客户送测。第二代产品H50将于明年一季度回片，支持主机厂客户2025年的量产车型。

基于存算一体，变革底层架构

让H30拥有如此成绩的，是一套全新的架构。

主流芯片产品中，英伟达、高通、地平线等自动驾驶的芯片，基于冯·诺依曼架构，也就是存储分离。

H30则基于存算一体，从架构上进行底层创新。

后摩智能联合创始人兼研发副总裁陈亮总结，H30这款芯片实现了六项技术突破：

大算力、全精度、低功耗、车规级、可量产、通用性。

后摩智能自研了IPU处理器架构，第一代IPU天枢架构专为智能驾驶打造。

天枢架构的设计思路是，采用多核、多硬件线程的方式来灵活扩展算力，AI 计算可以在核内完成端到端处理，保证通用性。

H30芯片里面有4个IPU核，部署在系统总线NoC上。

每个IPU 核又由4个Tile组成，每个Tile对应一个硬件线程，既可以独立进行不同任务的计算，又可以联合进行同一个任务的计算。

每个Tile的内部，包含CPU、Tensor Engine、CIM、Feature Buffer、Special Function Unit、Vector Processor、DMA、Shared Memory&Controller。

其中，CPU可以调度这些执行单元，也可以做一些对算力要求不高的计算。

这些计算单元，还可以直接共享一个多Bank的共性存储资源。

基于后摩的IPU架构，AI计算不需要在CPU、GPU、DSP等不同的处理器之间分配任务，而是可以在核内完成端到端的计算。

此外，后摩智能设计了专用的数据传输总线，搭配多通道，可以在4个Tile和各个IPU 核之间建立高速的数据传输通道。

为了发挥数据复用的特性，后摩智能还设计了多播的传输机制，一个Tile里数据，可以通过一次DMA传输，广播给其他多个Tile，从而不需要多个Tile多次读取数据。

存算一体的架构，让H30可以更好地计算与存储，AI Core计算利用率达到80%以上。

最后，由于具备良好的扩展性，让这款芯片有了更多想象空间。

据了解，后摩智能的下一代芯片，将支持扩展更多核，基于Mesh互联结构，可以将计算单元灵活配置，实现算力规模的可大可小。

可以合理推测，后摩智能的下一代架构的芯片有望支持类似GPT的大模型，甚至有可能应用于更大算力的自动驾驶场景。

实际上，存算一体领域，不止有后摩智能一家，其它还包括知存科技、亿铸科技等，不同的是，后摩智能选择了智能驾驶赛道作为落地。

随着算力需求的爆发和更多芯片产品落地，存算一体正在获得越来越多的认可。

总之，在降本增效的趋势下，拥有成本优势的存算一体智驾芯片，也让主机厂在英伟达、地平线等芯片外，有了更多新的选择。

退一步说，站在芯片安全的角度，存算一体智驾芯片可以与先进制程工艺解绑，也让智能汽车被“卡脖子”的隐患得到了一定缓解。

文章来源于: 电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。

跟着TDP配电源怎么就蓝屏了？原因揭开

需要我们自己进行判断了。对于主流的CPU来说，一个简单的做法是直接将TDP乘以2，也就是说，TDP为95W的CPU要将其功耗计算为95x2=190W。此外，在合计硬件功耗时，也应该留出一定的余量，考虑在部分场景下硬件会有较高的功耗...

2022-12-22

开始使用 Power Stage Designer 的 13 个理由

现有功能集之上添加了一个新拓扑和两个新的设计功能，可帮助您进一步缩短开发电源的设计时间。新工具包含场效应晶体管 (FET) 损耗计算器、并联电容器的电流共享计算器、交流/直流电源大容量电容器计算器、用于...

2023-04-24

莱迪思发运首批低成本、低功耗LatticeECP4 FPGA样片

的设计流程和用户界面，使设计人员能够更迅速地针对低功耗，成本敏感的FPGA应用。此外， Lattice Diamond软件继续提供业界领先的功能，专门为低成本和低功耗的应用而开发。其中包括一个非常精确的功耗计算器...

2012-06-06

莱迪思推出下一代LatticeECP4 FPGA系列

了一整套功能强大的工具，高效的设计流程和用户界面，使设计人员能够更迅速地针对低功耗，成本敏感的FPGA应用。此外， Lattice Diamond软件继续提供业界领先的专门为低成本和低功耗应用而开发的功能。这些包括一个非常准确的功耗计算器...

2011-12-01

电气控制原理动态图，全都给你整理齐了

计算器、转换工具、引脚定义、分类...

2024-08-28 17:50:16

电工大师功能太强大了，学习电工技术的百宝箱！

款专为电工行业的从业者打造的软件，这里的功能非常的全面，在这里用户能够找到非常实用的各项电工电子的计算功能，包括计算器、转换...

2024-09-01 11:18:36

利用强大的软件设计工具为FPGA开发者赋能

之外，莱迪思软件工具集中还包括了智能规划功能，比如Radiant和Diamond都可以显示时序图、功耗计算器、布线矩阵、物理布局和拥塞等信息，或者是设计中发生拥塞的位置并进行更改。这意...

2024-07-17

利用强大的软件设计工具为FPGA开发者赋能

系统集成。除此之外，莱迪思软件工具集中还包括了智能规划功能，比如Radiant和Diamond都可以显示时序图、功耗计算器、布线矩阵、物理布局和拥塞等信息，或者是设计中发生拥塞的位置并进行更改。这意...

2024-07-17

利用强大的软件设计工具为FPGA开发者赋能

2024-07-19 09:27

汽车电子电气架构设计仿真解决方案

遏制区域内故障概率的数学模型及其产生的 "模块错误率"；高投入的集成、测试：设计复杂性指标和测试覆盖率计算器；以不同的精度模拟 "全栈 "系统行为，可能插入真实的组件进行软件在环或硬件在环测试案例，以建...

2023-11-13

算力256TOPS，典型功耗35W，存算一体芯片杀入智能驾驶

相关关键词

相关文章