引言:在自动驾驶领域,传统处理器的竞争规则正发生急速的变化。
一般来说,人工智能的发展主要取决于两大基本要素:算力和算法。自动驾驶作为目前技术投入较大、商业落地较早、市场前景广阔的人工智能应用,其主控芯片的算力也被业内拿来作为评价优劣的主要标准。
为什么自动驾驶需要的算力越来越大呢?
仅仅还在几年之前,ADAS智能驾驶辅助的芯片AI算力才几个TOPS,但转眼间100TOPS已经成为中高端自动驾驶车型的标配了。
为何自动驾驶需要的算力越来越大呢?
第一个原因是传感器的增多。一辆自动驾驶车辆装载的传感器,一般包括前视、后视、环视摄像头,再加上激光雷达、毫米波雷达,未来车上的传感器数量越来越多。传感器数量的增多带来的是传感器数据量呈现几何数量的增加。如果不对相关数据进行压缩或结构化处理,一天能收集到几百TB的数据。这就带来一个需求,需要对这些本地数据进行分析、整理、压缩,再上传到云端。这要求在车端拥有强大的数据分析能力和计算能力。
第二个原因是大算力模型的突破。ChatGPT让业内看到了高计算量和大参数量模型的结合,对于算力提出了越来越高的要求。
在自动驾驶的早期1.0时代,整套系统从感知到地图融合再到规划控制都是基于规则构建的。辅助驾驶功能更强调决策控制,如横向控制和纵向控制。然而,基于规则的系统与深度学习神经网络不同,无法进行端到端训练,导致大量规则调试。规则系统面临的挑战包括难以预期的延迟和响应。尽管1.0时代部分模块采用数据驱动方法,但整个系统仍以人制订的规则为主导。
进入了自动驾驶的2.0时代,由人制订的规则开始让位于数据驱动,利用神经网络为代表的智能计算来取代逻辑计算。ChatGPT就是一个典型的智能计算的代表。以上图为例,蓝色部分是智能计算,可以用数据驱动方式软件2.0的方式来实现。天蓝色部分则是逻辑计算,通过程序表达规则跑在CPU上,这可以理解为是两代的计算架构。事实上,智能计算对算力需求在7年间提升6倍,如图像识别和自然语言处理任务性能持续提升,但背后算力需求也在快速增长。
简单来说,传统的计算架构是通过程序对各种规则进行描述。在自动驾驶领域,就是通过很多的ECU来分别实现设置好的程序。以座舱域为例,座舱域中的HMI功能对用户了解自动驾驶系统的状态、性能、特点和功能非常重要,有助于建立人机互信。特别是L2+、L2++和L3级别的自动驾驶中,没有良好的HMI,用户会担忧自动驾驶的状态。而HMI则主要用到智能计算。因此,从大趋势来讲,整个芯片占比越来越高的一定是智能计算,而通用逻辑及规则计算的占比也会缓慢增长,但是增长速度远远比不上智能计算。智能计算的比例提升才是算力需求增长的关键。
第三个变化是汽车电子电气架构的变化。未来汽车电子电气架构将变得更加集中与高效。随着汽车电气架构从分散的ECU到集中的DCU域控制器,再走向中央计算,各个车控底盘控制呈现中央高度集中式的高效计算和灵活快速计算。智能计算逐步取代逻辑计算,成为核心。类似人体神经系统,中央计算相当于大脑,控制域则类似脊柱和神经末梢,需要快速响应但算力要求相对较低。高成本、高功耗的计算无法部署在车辆各处,仿生角度看也是合理的。
中央计算使汽车硬件升级更容易,如同服务器可插拔。以前,更换车载硬件或域控较困难,因为专门设计的硬件盒子涉及供电、散热等定制设计。未来电子电气架构将实现高效计算与快速响应,为汽车智能化发展奠定基础。
第四个变化是芯片计算架构的变化。PC时代以CPU为王,智能手机时代CPU和GPU的重要性逐渐平衡,多媒体与图形渲染需求增加。到了智能汽车时代,AI计算的需求大增,如果仍然用GPU来做AI运算,成本太高,这就需要重新设计专用计算架构。于是各种NPU、XPU应运而生。
高算力必然带来更好的体验吗?
既然算力需求在自动驾驶中越来越大,那么是否高算力就会带来好的用户体验呢?算力是否是衡量自动驾驶芯片的唯一标准?
当然不是,实际上在自动驾驶领域,不少高端车型在量产时搭配了高算力,但实际体验并不出众,与低算力的车型体验并没有实际差别。而由于芯片受摩尔定律影响,有可能一年后同等算力的平台价格会大幅度降低。
以特斯拉为例,发布HW3.0时部署了两颗72TOPS算力芯片,总算力为144TOPS。与基于英伟达平台的HW2.5相比,峰值算力提升仅几倍,但图像处理帧率提升了21倍。因此,虽然峰值算力提升有限,实际处理性能却大幅增长。
另一方面,物理算力越大带来的成本也会越高,但不一定会带来真实算力的提升。什么是真实的算力?不是每秒钟能进行多少次的计算,而是每秒钟能处理多少帧的图像。很多厂商宣传的算力是CPU、GPU的频率,NPU的TOPS,但用户能体验到的则是FPS。TOPS和FPS之间差异大,因为算法快速演进,计算架构、软硬件设计优秀程度差异很大。
摩尔定律指出算力每18个月翻倍,但近十几年速度减缓,半导体芯片性能提升接近饱和。在后摩尔定律时代,芯片优化需先进工艺制程、封装架构,以及软硬件架构支撑高速成长。传统芯片厂商关注的是每瓦或每美金的峰值算力,给出的则是每秒计算次数的提升。但对于自动驾驶厂商来说,他们需要的是真实计算效能和每秒处理帧率的提升。实际上过去9年中,图像识别、语音识别、自然语言处理任务所需计算次数每9-14个月降低一半,这得益于算法的迅速提升。可以说,算法的提升已经远远超过了摩尔定律的发展。
从最新的神经网络算法的演进趋势来看,贝叶斯架构高效支持Transformer,如Swin Transformer,获2021年计算机视觉领域最高奖马尔奖,是目前效果最好的解决图像识别、检测、分割问题的基础架构。
2017年发布自研的FSD芯片时,特斯拉创始人马斯克便以此前应用的英伟达Drive PX2作比,从算力来看FSD是Drive PX2的3倍,但在执行自动驾驶任务时,其FPS是后者的21倍。GPU的看家本领便是图像识别。为何GPU发明者英伟达的Orin会在测试中表现不及算力只有一半的地平线征程5?部分核心原因在于安培(Ampere)架构和贝叶斯(Bayes)架构设计出发点的差异。
地平线的征程5芯片于2021年发布,拥有128TOPS超强算力,是国内首款百T算力芯片。目前征程5已用于10个车型,去年出货10万+。与主要竞品(GPU架构,峰值算力2倍以上)对比,征程5在处理速度方面更快。性能达到1500+FPS,端到端处理延迟最快60毫秒,功耗不超30瓦。之所以能做到这一点,得益于地平线的BPU架构。
BPU是地平线自主设计研发的创新性智能计算架构,具有高性能、低功耗、低成本等优势,可将算法集成在智能计算平台上,提供设备端上软硬结合的智能计算解决方案。贝叶斯是地平线推出的第三代智能计算架构,专为高等级智能驾驶应用打造,具备高性能、低能耗、低延迟的特点,凝聚了对深度学习和智能驾驶场景的深度洞察。此外,地平线智能计算开发平台基于征程5打造,包含芯片开发套件、量产级硬件参考设计、软件开发平台和参考算法等,生态伙伴能够在地平线的芯片上快速部署智能驾驶算法应用,开发差异化产品方案,抢占市场先机。
地平线正在研发名为纳什的下一代BPU架构,相对于征程5芯片的BPU有显著改善。纳什采用了更深层次的存储架构体系,同时提升了计算阵列规模,从而进一步提升了峰值算力。此外,纳什还增强了数据排布的转换引擎和加入了高性能的浮点加速单元,从而使得算法的精度和可验证性都得到了很好的提升。另外,地平线科技的引擎兼数据流动也考虑了能效和灵活性。数据排布的转换引擎大幅增强,能更好地应对新形态算法,如以Transformer为代表的算法对于数据的data layout进行更灵活、高效的转换需求。这是非常重要的,因为在整个Transformer算法中有大量的数据操作,这可能会形成计算架构的瓶颈。同时,地平线还首次加入了一个高性能的浮点加速单元,使得算法的精度和可验证性都得到很好的提升。
点评:不服跑个分,在自动驾驶芯片领域行得通吗?
最后,如何评价一款好的自动驾驶芯片?对于刚刚接触自动驾驶汽车的消费者来说,要快速的对不同厂商、不同品牌型号建立一个初步印象,参数对比是一个比较直接的方法。
自动驾驶芯片主要竞争者与产品对比,来源:光大证券研究所
在2022年之前,自动驾驶芯片的市场宣传主要还是按照AI算力、功耗、算力/功耗、制程等参数进行对比,这种宣传方式不能说是错的。不过这种参数确实无法直接反应用户的真实体验。地平线联合创始人兼CTO黄畅博士认为,一款好的自动驾驶芯片应该是六边形战士,同时具备高能效比、算力、灵活性、适配性、安全认证和开发便捷性。也就是说,符合木桶原理,自动驾驶芯片的最终用户体验取决于最短的那一块板。
不过到了2022年,似乎游戏规则发生了变化。英伟达(NVIDIA)推出的Thor芯片系统在自动驾驶和智能座舱领域引发了巨大震动,直接将算力干到了2000TOPS。这就让自动驾驶领域的算法公司和准备自研芯片的车企面临压力。过去受限于算力限制,迫使芯片和算法公司不断研究新的算法和更高效的专用芯片,寻求在有限的算力下实现更高效、轻量化的解决方案。然而,英伟达推出Thor芯片,承诺两年内提供八倍算力,使得4000TOPS成为可能,这似乎使得算法优化变得不再那么重要。
这让人想起比尔盖茨与乔布斯的逻辑:乔布斯追求专有程序、专有硬件,精打细算;而比尔盖茨则依赖硬件厂商解决问题。如今,英伟达正是采用这种方法,用算力暴力的解决算法精度问题。如果这条路真的行得通,就算某些厂商的算法不够好,但仍然可以通过超强的算力来弥补算法的不足。
所以分析了半天,最后似乎又回到了起点:自动驾驶芯片仍然是算力为王?
笔者认为应该分阶段来看待这个事情。现阶段高算力必然带来高成本,不是所有的车厂和消费者会为高算力买单,这取决于他们自身的定位。未来自动驾驶市场将在十年内转向低算力、中算力和高算力的全场景市场。硬件将随着普及成本进一步降低。到时候可能市场会自发的形成高中低三个不同的市场,分别对应高中低三种不同的算力。而这三种市场将随着硬件成本的降低不断转移。比如目前50-100tops的算力范围属于中高端市场,但未来有可能平民化,而2000tops的产品则将在一段时间成为高端旗舰车型标配。
最终有一天,市场和消费者都会对自动驾驶芯片的算力回归理性,选择最适合自己的功能和需求。事实上,这种现象在手机市场已经发生过一次了。曾几何时新手机发布,厂商动不动“不服跑个分”,但到了今天消费者显然已经不再把手机芯片跑分当成唯一指标。大家都意识到,合适的硬件算力和算法匹配才能发挥最佳智能化效果,综合实力才是衡量智能芯片的最重要因素。
最后,笔者认为,随着算力提升的速度加快,以及硬件成本的下降,未来智能汽车领域将出现一个新的硬件升级市场:通过更换运算模块来进行算力提升。这种现象在PC市场也已经发话谁能过一次了。
相关文章