伴随着自动驾驶级别的持续提升,以及应用场景越来越复杂,智能汽车对算力的需求正呈现“爆炸式”增长。
目前,市场上普通L2级自动驾驶所需的算力通常不超过30 TOPS。但随着智驾应用逐渐往高速NOA甚至城市NOA拓展,所需处理的数据规模呈现指数级增长,对算力的需求已经达到了上百TOPS。
比如小鹏G9 Max、P7i Max,以及理想L系列 MAX版车型,为支持全场景智能辅助驾驶,均搭载了双Orin-X芯片,算力高达508 TOPS。蔚来ADAM蔚来超算平台,甚至搭载了四颗Orin-X,总算力高达1016 TOPS。
到L5阶段,业界普遍认为对算力的需求将进一步提升,至少在千TOPS级别,甚至有激进的说法认为,随着大模型的发展,对算力的需求水涨船高,要想实现L5级别的自动驾驶,需要上万TOPS算力。
无论哪种预测,智能汽车进入算力暴涨时代已经是确定的趋势。
但更高的算力,同时又往往意味着更高的成本和功耗,如何实现这三者之间的平衡,是当下自动驾驶赛道亟待解决的问题。
对此,过去一段时间很多企业都在开展相关的探索。其中存算一体,作为一种新的计算架构,通过将存储与计算完全融合,显著提升计算效率,被认为是AI算力需求暴涨下,继CPU、GPU之后的算力架构“第三极”。
突破算力瓶颈,存算一体站上风口
日前,清华大学宣布研制出全球首颗全系统集成、支持高效片上学习的忆阻器存算一体芯片,让存算一体这种先进的技术架构再度成为行业关注的焦点。
图片来源:清华大学官方微信公众号
所谓存算一体,顾名思义即在存储器中嵌入计算能力,通过将存储和计算合二为一,消除不必要的数据搬移延迟和功耗,显著提升处理器的性能和计算效率,降低计算成本。
在计算机领域,存算一体并不是一个新概念。早在1969年,斯坦福研究所就提出了存算一体概念,不过受芯片设计和制造、应用场景等多方面因素制约,早期存算一体仅仅停留在理论研究阶段。
直到最近几年,随着大数据、云计算、人工智能和物联网等新一代信息技术的快速发展,对AI计算需求持续暴增,依靠传统的冯·诺依曼计算架构越来越难以满足各类终端应用的需求,存算一体才开始逐渐受到重视。
在传统的冯诺伊曼架构中,由于计算和存储相互分离,当执行一个任务时,往往需要先从存储单元读取数据,然后再转入计算单元进行计算和处理,完成后再将数据存回内存。目前,主流的AI处理器几乎都是采用这种计算架构,可以说无论技术还是应用生态,都已经十分成熟了。
但在人工智能快速发展的当下,这一成熟架构的不足之处也开始日渐凸显,主要体现在“存储墙”和“功耗墙”两个方面。其中“存储墙”,主要是由于处理器中的存储和计算相互分离,在数据处理过程中,需要不断交换数据,如果二者的距离过长,会造成响应的存储延时,制约着系统整体的运算速率,并且随着AI计算的数据吞吐量越大,“存储墙”的问题也会越严重。
不仅如此,目前存储器的发展速度其实也远落后于处理器的发展速度。据相关分析数据,处理器的算力大约以每两年3.1倍的速度增长,而内存的性能每两年只有1.4倍的提升,由此导致处理器的性能与效率在实际应用中也会受到存储器的严重制约。
“功耗墙”则是由于存算分离,在反复移动数据的过程中,会带来额外功耗的提升。有研究数据表明,在处理器内,移动数据的功耗要比计算本身的功耗高2到3个数量级。在以数据为核心驱动的智能化发展新时代,如果不能很好地解决这一问题,AI芯片在计算效率和功耗等方面必然会受到严重的制约,对于智能汽车同样如此。
图片来源:后摩智能
为此,过去一段时间很多企业都在谋求破局,目前来看主要有近存计算和存内计算两种技术路线。广义上来讲,这两种方案都属于存算一体概念,区别在于近存计算是将存储单元与计算单元通过更先进的封装等方式进行集成,增加访存带宽,减少数据搬移,进而提高数据处理效率,但计算和存储模块本质上还是相互独立的。
比如特斯拉的Dojo芯片,采用的就是近存计算架构,对“存储墙”和“功耗墙”的问题进行弱化,实现性能显著提升。据悉,相比于业内芯片,特斯拉D1芯片在同成本条件下性能提升了4倍,同能耗下性能提高1.3倍,占用空间节省5倍。
不过,在一些业内人士看来,这一芯片模组其实还没有到达“完美”的程度,如果采用“存内计算”或者“存内逻辑”架构,芯片性能或许还会有大幅度提升。
与近存计算相比,存内计算由于将计算和存储真正融合在一起,均在存储器内部完成,可以进一步减少访存的功耗和延时,被普遍认为是“AI算力的下一极”。
目前,国内外很多科技企业及初创公司都在积极开展相关的研发,比如英特尔、SK海力士、IBM、美光、三星、台积电、阿里达摩院、华为等。伴随着各大玩家在技术方面不断取得新突破,新的应用场景陆续涌现,存算一体开始由概念逐渐迈入产业化落地的新发展阶段。
据相关预测数据显示,到2030年,基于存算一体技术的芯片市场规模有望超过千亿人民币。
PK国际巨头,“芯势力”新玩法
作为一种全新的计算架构,存算一体无疑为大规模AI计算提供了更多的可能,这使得很多AI技术的细分应用场景都将随之受益,包括智能驾驶。
在过去近十年的发展中,自动驾驶先后经历了1.0时代的硬件驱动和2.0时代的软件驱动,到如今的3.0阶段,业界普遍的共识是将由数据作为核心驱动,推动自动驾驶持续升级迭代,迈向更高阶的无人驾驶。
在此过程中,随着ODD的不断拓展,需要处理的数据规模大幅增长,对应算力需求也将不断增强。一个确定的趋势是,随着智驾算法模型的演变,从最初的 CNN 模型到如今的Transformer、BEV 等大模型,在芯片算力和效率方面的需求已经在呈指数级增长。
图片来源:地平线
正是基于这一趋势,智能驾驶也被认为是存算一体未来落地应用的关键场景。目前,已经有公司针对车载场景在开展相关的探索,试图为高阶智能驾驶演进提供不一样的“解法”。
今年5月,国内芯片初创公司后摩智能宣布推出业内首款存算一体智驾芯片——后摩鸿途H30。得益于存算一体的架构优势,H30 基于 12nm 工艺制程,在 Int8 数据精度下实现高达 256TOPS 的物理算力,所需功耗不超过 35W,整个 SoC 能效比达到了 7.3Tops/W。
根据后摩智能透露,后摩鸿途H30已经可以适配BEV 、PointPillar 等自动驾驶主流网络模型,以后摩鸿途H30 打造的智能驾驶解决方案已经在合作伙伴的无人小车上完成部署。
而为了加速存算一体技术的落地应用,后摩智能还同步推出了基于后摩鸿途H30 芯片打造的智能驾驶硬件平台——力驭,以及研发的软件开发工具链——后摩大道,形成“芯片+计算平台+软件工具链”的完整布局。其中前者可以实现200KDMIPS 的CPU 算力,和高达256Tops 的AI 算力,支持多传感器输入,但功耗仅为 85W。
后摩智能创始人&CEO吴强博士,图片来源:中国电动汽车百人会
在后摩智能创始人&CEO吴强博士看来,对于智能驾驶,存算一体带来的价值意义主要有两点:第一,上限更高,跟传统方式相比,存算一体架构在计算效率方面可以实现数量级的提升;第二,技术底线更有保障,虽然在晶圆制造方面,相对于传统AI芯片存算一体没有本质差别,但其一个显著的优势是,不需要昂贵的尖端晶圆工艺(5/3 nm),比如通过成熟的28nm 工艺即可做出算力和功耗媲美7nm 常规架构的芯片。
而在AI芯片各大细分应用场景中,智能驾驶无论是整体赛道规模还是对算力的需求,都十分可观。“但对于大算力芯片,现在很多企业其实不敢用,因为成本太高。而汽车行业又是典型的对成本和功耗极为敏感的行业,这时候如何解决高性能、低成本和低功耗这类既要、又要、还要的问题,存算一体无疑是适合的。”吴强表示。
事实上,针对智能驾驶日益增长的高算力需求,过去几年业界已经涌现了一批出色的玩家,比如英伟达、高通、Mobileye,都是其中的佼佼者。与此同时,国内还诞生了以地平线、黑芝麻智能等为代表的一批本土芯片企业,与国际巨头同台竞技。目前来看,已经取得了不错的进展。
据盖世汽车研究院统计数据显示,今年1-8月,国内智驾域控芯片领域,除了特斯拉自研,第三方供应商中以英伟达市场份额最高,为27.8%,对应出货量为56.2万颗;其次是Mobileye,市占率为12.4%,出货量达25万颗;第三名是地平线,市占率为12%,出货量为24.2万颗。
“基于这样的市场格局,像我们这样的新创企业要想跟国际巨头竞争,不能按照传统的方法,必须要另辟蹊径。”吴强在接受盖世汽车采访时表示。“或许用新的方式挑战英伟达这样的巨头不一定会成功,但至少有机会,而如果用传统方式去挑战,是一点机会都没有。”
吴强所说的这个机会,除了智能驾驶本身对于高性能、低成本AI芯片的巨大需求,还包括国产替代。过去几年,诸如地平线、黑芝麻智能等本土芯片企业的崛起,很大程度上也是受益于国产替代的需求的持续上升。
不过,尽管在技术优势以及市场等方面,存算一体前景广阔,在吴强看来,智驾芯片领域已有的这些巨头们,由于架构和软件生态已经十分成熟,存在较大的历史包袱,不太可能会切换到存算一体赛道。“特斯拉为什么可以做起来,因为特斯拉的芯片是从零开始做的,没有历史包袱,他也有这个能力。”
因此长远来看,他认为智能驾驶大算力芯片在技术路线上,会呈现传统基于冯·诺依曼计算架构的AI芯片,和存算一体芯片两种方案并存的局面,甚至还有可能衍生出其他的新技术路线。至于最终哪种路线能够胜出,将取决于工程能力、产品能力、销售能力等多方面的综合实力高低。
目前,后摩鸿途H30 ,已陆续给 Alpha 客户送测,同时后摩智能的第二代产品后摩鸿途H50 也在全力研发中,将于2024年推出,支持客户 2025年的量产车型。这意味着最快今明两年,大家就可以在量产车上看到存算一体新计算架构给智驾行业带来的全新体验变革。