商汤绝影智驾大模型，突围“三重门”

发布时间: 2024-07-09

来源: 电子工程世界

Who、How and Why？

这三点，往往是一本侦探推理小说最大的乐趣。小说末尾，作者会问凶手到底是谁，预测凶手，把整部作品的精彩推向最高潮。

这和智驾大模型的逻辑，是一样的。推理凶手，需要对整本书有完整的理解，凶手判断难度越大，故事越精彩，正如预测下一个Token，内容越丰富，信息越多，难度越大，需要上千亿参数的大规模模型去完成。

上周，《汽车公社》/《C次元》采访了商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚先生，他以侦探小说作比喻，引出了商汤绝影目前正在攻克的智驾端到端大模型难题。

刚结束的WAIC 2024世界人工智能大会，商汤绝影携多款最新智能驾驶和智能座舱产品亮相，这些产品均基于全新发布的商汤“日日新5.5”原生多模态大模型打造，同时，商汤绝影在业内率先实现原生多模态大模型的车端部署。

王晓刚认为，端到端大模型是智能驾驶领域的“ChatGPT时刻”，通用能力和涌现能力极强。真正的“端到端”大模型，实现难度很大，商汤绝影正走在难而正确的路上。

真正的“端到端”，究竟难在哪？

一是，演进阶段不同。

从感知端到端、两段式端到端、模块化端到端到单一神经网络模型的One Model端到端，难度递增，不同的企业，选择从不同的阶段切入，虽然都号称“端到端”，但做到单一端到端的玩家却极少。

二是，算力部署不同。

车企阵营，特斯拉DOJO智算中心可谓一骑绝尘，预计到2024年10 月，部署的总算力将达到10万PFLOPS，智驾供应商阵营，商汤算力优势明显，预计年底能达到2万PFLOPS。

三是，工程化能力不同。

对于车载大模型，只有好的技术和理念，没有扎实的工程化落地是不行的。和主机厂合作，验证工程化能力，也是大模型端到端综合实力的核心要素。

能都做到真正的One Model？算力是否足够？工程化能力和落地能力如何？这是“端到端”的三个难点，也是智驾供应商们待破的“三重门”。如何推开每一扇门，不仅考验团队管理层的格局，也考验团队研发的前瞻性思考。

01 难而正确的那条路

现阶段，特斯拉在内的汽车制造商都在探索端到端技术，以此作为智驾技术的制高点，但根据输入到输出的实现形式，方案和路径选择却各有不同——

在不同的演进阶段，端到端从广义到狭义，可以大致分为感知端到端、决策规划模型化、模块化端到端以及单一模型（One Model) 端到端，越往后，难度越大，能留在牌桌上的玩家也更少。

大部分企业目前在做的，是把自动驾驶各模块用神经网络替代，然后再把神经网络串联起来，进行联合优化。如两段式端到端，感知用一个模型，控制决策规划用一个模型，和整个能囊括输入到输出的单一大模型还有不少差距。

分段式端到端，有天然的短板。

一个，是信息损失。

王晓刚告诉《汽车公社》/《C次元》，分段式端到端的每一个模块，都会出现大量的信息损失和过滤。“从感知传到决策规划，信息量已经是变得非常少了，那么用于做决策规划模型的体积，就比感知模型要小几倍，甚至一个数量级。”

信息传递有过滤和丢失，明面上虽然降低了难度，但也拉低了能力的上限。真正的One Model端到端，难度是非常高的，当然天花板也很高。

二是，训练方式差异。

严格意义上讲，分段式并非真正的大模型，且训练方式也传统，就算使用了庞大参数，也难以发挥其效用，和ChatGPT的训练方式有本质区别。

“大模型的能力，不仅在于其规模，更在于训练方式和任务。”实现这一点需要强大的基础设施能力，如特斯拉拥有10万块GPU，大部分主机厂GPU数量远不及此，存在2~3个数量级的差距。”

“这是被验证成功的唯一路径。”

在王晓刚看来，真正的端到端大模型，是通向自动驾驶ChatGPT的一个路径，且是被验证成功的唯一路径。

虽是唯一路径，并不是每一家主机厂都能把路走通。一方面，训练大模型需长时间积累，耗资巨大，如一次实验可能需几千张GPU卡，投入上亿，主机厂缺乏此方面的积累。

另一方面，即使主机厂未来尝试训练大模型，也可能不划算。商汤这样的智驾供应商，可以通过各行业分摊大模型成本，但主机厂训练的大模型只能自用。除非像特斯拉涉足多行业，否则，少有汽车主机厂能承担如此高昂的费用。

02 算力，竞速大模型的关键

主流的分段式端到端，如果后续想转成单网式，是有一定难度的。王晓刚认为，仅从训练方式看，二者所需要的基础设施完全不同。

“ChatGPT级任务，需大量数据准备与清洗，主机厂和部分智驾供应商，其现有的GPU总量远远不够。”未来，考虑到持续的大规模投入，通用大模型的竞争者将越来越少。

王晓刚透露，商汤2019年的算力规模为700 PFLOPS，今年年底原计划18000 PFLOPS，但从现阶段的实际部署看，最终可以达到20000 PFLOPS。

五年间，算力变化非常快。

王晓刚告诉《汽车公社》/《C次元》，算力是被行业需求推动的，2022年ChatGPT横空出世，整个行业对尺度定律的认知、对算力的需求都出现爆发性的增长，且至今还没看到增长的尽头。

“大脑约有860亿个神经元，每个神经元有1000个突触，累计相当于百万亿到千万亿的参数量级。今天智驾大模型的参数，距离大脑链接还是差远了，尺度定律目前也还没有饱和，我们还没看到天花板，让算力的快速增长提供了可能。”

没有算力储备，谈大模型就像空中楼阁，现阶段，商汤人工智能超算中心目前有45000块GPU，峰值算力12000 PFLOPS。

这样的算力储备，已远超国内智驾供应商，对于商汤来说，面对这样的算力部署，还需考虑如何充分利用GPU效率——

并不是所有的GPU都必须满负荷运转，商汤需要设计合适的调度方案，让任务空闲中的GPU也能利用起来。“因为我们的基数体量大，具备规模化优势，几万块GPU，哪怕是10%-20%的空闲利用率，算下来也是非常可观的。”

基于庞大的算力部署，商汤绝影能够以云侧、端云结合、端侧等全栈方式灵活部署多模态大模型，让商汤原生多模态能力快速落地智能汽车。

03 算力中心=高投入

无论是智算中心，还是大模型，都是高投入的烧钱巨坑，且需长期的积累。商汤从2018年启动大模型研发，从刚开始，就意识到软硬件基础设施建设的重要性，后面累计用了6年的时间，做到现在的算力规模，投入非常庞大。

这引申出另一个话题：大模型时代的供应链范式。

何小鹏曾提过一个判断，大模型时代难有Tier1，王晓刚也认可这样的观点。他分析说，传统的Tier1集成不同功能模块，提供给主机厂，但大模型时代，自动驾驶前端和座舱已没有多模块诉求了，都在讲一体化，合作的模式，也将演变为主机厂、芯片厂商和AI厂商三者联动。

“特斯拉已经拥有10万块GPU，但目前很多车厂只有几百块、一千块的规模，小规模集群不够用，倒逼着不断新集群，更加集中化，去提升效率。”

考虑到大模型本身是长期投入的过程，车厂独立构建自己的智算中心，去做大模型基础研发，是难以持续的。在王晓刚看来，更好的模式是寻找AI公司合作，避免重复性投入，大家做各自擅长的事。

04 工程化能力护城河

智能汽车向大模型的方向发展，是很有价值的事情，但也是一个长跑的过程。这意味着，能不能伴随主机厂共同成长，持续在一条路上长久投入和突破，更是关键。

在商汤绝影的价值观里，扎实的工程化落地能力，并不亚于大模型研发的重要性。做智驾和座舱大模型，光有好的技术和好的理念，没有扎实的工程化落地是不行的。

商汤绝影脱胎于AI文化，过去几年深耕汽车行业，通过与主机厂的合作，工程化能力进步很快，这也构成了独一无二的护城河。

一方面，是人才。

王晓刚表示，通过与汽车制造商合作，商汤绝影补入一批汽车行业的专业人才，与原有的AI人才融合，补齐工程化能力。

另一方面，是趋势。

在商汤绝影看来，未来的车载大模型，车端的工程化会逐渐减弱，而后台的基础设施则会变得更重要。

“工程化能力，涵盖了数据的选择、清洗以及系统的稳定性等多个方面，这恰恰是不少车厂和供应商目前的短板所在。在大模型时代，我们面临各方面的新挑战，任何宣称自己具备工程化能力的企业，都需要踏实下来，明确具体是哪一方面的工程化能力。”

可以肯定的是，人才越来越重要。

王晓刚告诉我们，现阶段，推动大模型“上车”的参与方，主要是车厂、高校和科技公司，企业承担了大部分大模型科技成果转化工作。商汤绝影和商汤研究院联动，背后也关系到基础设施建设，但训练大模型的专业化人才，其实几十个人就够。

人才也需要自我迭代。

前段时间，蔚来智驾研发部完成架构调整，此前分为感知、规控和集成等部分，调整后，感知和规控团队合并为大模型团队，集成团队重组为交付团队。

这意味着，越来越多的车企，将放弃业界沿用多年的“感知-决策-规控”技术路线，更明确地探索端到端大模型实现高阶智能驾驶。

“新时代到来，大家都要做好准。”

王晓刚坦言，他自己是人工智能1.0时代的人，最初的业务模式，有智慧城市，也有手机等终端。

“当公司面临大模型转型，做研发、基础设施和数据准备，1.0时代的部门迅速收缩。即使到了2.0时代，市场上有很多精通大模型训练的人才，但本质上，这些精英都是靠不断拥抱变化、不断自我学习进步的，并不是天生就懂大模型。”

现阶段，商汤绝影大部分人力都铺在大模型业务，但规则算法作为智驾的保底，也是需要的，团队不能完全抛弃现有团队。一支强大的混合型团队，才是考验端到端上车的关键。

而冲破三重障碍的商汤绝影，已经为下一轮的角逐做好准备。

文章来源于: 电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。