盘古大模型主要是帮助自动驾驶提升数据闭环。
华为盘古大模型开始赋能自动驾驶。
近日,华为云智能驾驶创新峰会上,基于盘古大模型,华为发布自动驾驶领域四个场景大模型。分别是,场景生成大模型、场景理解大模型、预标注大模型、多模态检索大模型。与此同时,华为方面称,基于盘古大模型3.0,华为云还可以帮助企业打造自己的自动驾驶大模型。
事实上,自2017年谷歌发布Transformer网络结构,成为大模型发展源头技术后,大模型技术在自然语言理解、计算机视觉、智能语音等方面都取得了突破。中国自2020年也进入大模型快速发展期,出现了文心一言、通义千问、星火认知等一批预训练大模型。
那么,与其他大模型相比,华为盘古大模型有什么不同?“3.0”又是什么架构?它在自动驾驶领域主要有哪些作用,又面临哪些挑战呢?
01、盘古大模型3.0是什么?
华为盘古大模型布局已久,其负责人是华为云AI首席科学家田奇。
田奇曾于2008至2009年,从大学调至微软亚洲研究院多媒体计算组进行研究工作。2018 年,田奇加入华为担任首席科学家,负责华为云相关业务。
2020年,在田奇带领下,华为启动盘古大模型启动研发,并于2021年4月正式发布,到2022年聚焦行业应用落地。今年7月7日,华为开发者大会(Cloud)期间,盘古大模型3.0正式发布。
盘古大模型3.0是一个完全面向行业的大模型系列,包括“5+N+X”三层架构。
Δ 华为云盘古大模型架构
其中,L0层是指基础大模型,包括NLP(自然语言处理)大模型、CV(计算机视觉)大模型、多模态大模型、科学计算大模型和预测大模型五个基础大模型。
华为在这五大发展方向中的成熟度是不同的。与风头正劲的ChatGPT在NLP领域比较强势不同,盘古大模型的初衷主要是服务B段的客户,因此更聚焦比较成熟的CV领域。
L1层指N个行业大模型,华为云可以提供使用行业公开数据训练的行业通用大模型,包括政务、金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的L0和L1层上,为客户训练自己的专有大模型。
L2则提供了更多细化场景的模型,是在L1基础上结合行业细分场景得到的推理模型,包括政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,提供“开箱即用”的模型服务。
整体来看,盘古大模型分为三个训练阶段:一是预训练,利用海量数据进行预训练得到通用基础模型,二是微调,针对下游行业具体任务,结合行业数据进行微调;三是大模型迭代,结合不断产生的新数据和之前训练使用的数据,实现大模型的终身学习。
Δ 华为盘古生态产业链。数据来源:东吴证券
在此之下,盘古大模型3.0还具备自研和解耦两大特征。
自研方面,根据华为云CEO张平安此前介绍,“华为自研的AI根技术,在最底层构建了以鲲鹏、昇腾为基础的AI昇腾云算力底座。并在昇腾之上,提供了计算框架CANN……昇腾云的效能不仅不落后,反而领先于业界主流GPU,盘古大模型训练效率对比业界主流GPU平均提升1.1倍。”
解耦,是盘古大模型3.0的另一个关键词。设计上,盘古大模型采用完全的分层解耦设计。合作伙伴可以基于此为自己的大模型加载独立的数据集,也可以单独升级基础模型,又可以单独升级能力集。
与此同时,在L0和L1大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。此外,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。
02、如何赋能自动驾驶?
具体到自动驾驶领域,盘古大模型3.0当下的主要作用是提升数据闭环。
数据闭环核心目的,是不断将高价格数据从原始数据中提取出来后,输送给算法做训练,最终不断完善算法,解决各种corner case(长尾场景)。
方式则是从车端提取数据做初期整理,然后进行场景化管理,再进行数据标注、训练、仿真,最后回给采集需求。其中,每一个过程都有大数据可以发力的机会点。
Δ 华为云盘古大模型赋能场景理解
首先是场景理解,这主要是为了提取自动驾驶高价值数据。
当下,随着高速NOA、城市NOA的不断推进,自动驾驶公司或车厂每年积累的数据不断增加,甚至达到百TB级别,其中真正能够送去做算法训练的不到百分之十,如何高效从原始数据中把需要的数据筛选出来非常重要。
根据华为方面透露,一些企业已经有大量的数据积累,传统的方式需要人工回看,再进行打标、分类组织起来。这样的速度是比较慢的,因此容易造成前端数据积压。大模型的机会点在于,可以自动理解视频当中的内容进行自动打标签,并形成产品化管理,为提取高价值场景做自动筛选。
其次是数据标注,正如上文所说,一些企业每年有上百TB数据需要标注,每年在此之中的花费可能为千万甚至上亿元,且效率还不能满足数据供给需求。大模型的机会点在于,它具有高精度优势,可以完成2D、3D的高精度标注,最高可以降低90%标注量。
一般来说,在华为做完预标注后,会与车企、标注第三方公司合作,在此基础上进行进一步处理。在华为看来,这意味着车企的任务从标注变成了质检,可以有效降低成本,并提升30%到40%的效率提升。
Δ 华为云盘古大模型赋能预标注
再此是场景生成,这一部分的主要目的是使感知模型的长尾问题能够自动生成补齐。一般情况下,当算法团队发现其算法在某些长尾问题下完成度不高时,会提出corner case收集需求。
此前主要是两种方式去进行采集,一是出采集任务,到真实场景里去采集,但corner case往往可遇不可求,很难真的碰到并被收集,效率低下;另一种则是传统3D建模的方式,这非常依赖3D建筑工程师的人工经验,且由于精度不够,当需要输出感知模型进行训练时,往往不足以支撑,导致模型精度下降。
这其中,大模型的机会点是,从实车数据学习如何生成新视频,同时处理重建和渲染,生成数据可用于感知算法训练;重建各类障碍物构建素材库,根据需要构造corner case,增强数据完备性;针对天气、昼夜、季节等环节因素对已有场景进行变换,构造corner case。华为提供的方式是,基于神经网络做实车场景,并进行重建跟渲染。
总之,根据华为云EI服务产品部部长尤鹏的说法,华为云通过盘古大模型赋能自动驾驶开发平台,可以实现三层加速:
通过数智融合架构打破数据、AI资源管理边界,在一个平台即可完成开发、测试、交付上线工作,让业务创新提效2倍,实现数据加速;
借助盘古大模型在认知、感知、决策、优化等全领域的能力,车企可以快速基于盘古训练出自己需要的模型,实现算法加速;
基于昇腾AI云服务,可针对自动驾驶300+算法进行优化,60+实现精度性能提升,可以做到千卡训练数月不中断,实现算力加速。
03、还有哪些挑战?
未来很丰满,但当下盘古大模型的应用还处于比较早期阶段,至少在自动驾驶领域如此。
根据华为方面介绍,目前上述三种华为自动驾驶相关大模型中,只有场景理解大模型已有客户(比亚迪)合作落地。其他场景有一些联创项目,正在计划落地中。
与此同时,大模型也面临成本压力。
有数据显示,大模型的训练成本很高很高,GPT-3训练一次的成本可能在1200万人民币。而华为方面,在训练千亿参数的盘古大模型时,也调用了超过2000块的昇腾910,进行了超过2个月的训练,价格不菲。
因此,大模型运用于自动驾驶时要求算力所带来的成本,以及如何分配算力成本也是量产面临的关键问题。
华为方面以高精地图类比称,高精地图对于自动驾驶的加持作用是毋庸置疑的,但近期多家车企提出了“无图”方案,除了政策原因外,成本问题是很大的因素。
实际上,GPT-3出现之后也给了业界一个很大的启示,是否还要继续这样“暴力美学”地走下去。
学界有观点认为,大模型在现在的参数基础上再指数级增加对模型的性能边际效应已经减弱了,那么这就需要一些降本的方法:Open AI团队选择的方式是做精准高质量的标注。
华为也有自己的思考。
一方面选择小样本训练,通过自监督的方法,以更少的标注数据来做训练,以降低成本。
另一方面,盘古大模型的三层架构也能在结构上实现降本。L0层是通识性的大模型,具备鲁棒性和泛化性;大模型训练好了之后不用再重复训练,只需在L1和L2层做适应性训练,成本关系是上一层的5-10%。
除此之外,大模型落地还面临数据复用、云端和车端不同芯片匹配、数据脱敏后鲜艳度等一系列问题待讨论。
可以预见,无论是华为,还是其他公司关于大模型的探索还在起步阶段,还需要很长时间去落地、验证。