数据闭环是指运用AI大模型等新技术,对数据挖掘、自动标注、模型训练、仿真测试进行升级,让智驾数据运用从小规模且重人工的方式,转化为可大规模运用且高自动化运转的方式,实现智驾数据处理更流畅、智驾功能体验更佳。数据闭环的主要流程包括数据采集、数据传输、数据存储、数据预处理、数据清洗、自动标注、模型训练、仿真测试、车端验证、数据回灌。
数据采集
数据采集是数据闭环的起点,可以依靠传感器技术,通过道路采集车、量产车、车主数据贡献等方式进行数据采集,此外多模态大模型技术也能够通过场景生成进行数据采集,丰富数据库的内容,解决Corner case的问题。
汽车环境感知传感器能够精确捕捉并整合车辆周围的各种环境数据,使智能驾驶系统做出精准、实时决策的核心依据。其中,四种主要的环境感知传感器包括激光雷达、毫米波雷达、高清摄像头和超声波雷达,四种环境传感器采集到的数据经过相关处理后能够更加高效用于云端存储、数据标注、模型训练、仿真测试等数据闭环流程中。
Tesla通过影子模式获取驾驶数据。Tesla的车辆在行驶过程中(或所有状态下),传感器会持续对决策算法进行验证——系统的算法在“影子模式”下做持续模拟决策,并且把决策与驾驶员的行为进行对比。两者一致的数据不会有什么处理(目的是大幅缩小计算中心存储需求),一旦两者对比不一致,该场景便被判定为“极端工况”,进而触发数据回传。影子模式帮助特斯拉挖掘并优化那些罕见但关键的极端情况。通过设计trigger触发机制,特斯拉能够回传车端收集到的corner case,并利用这些数据来改进其自动驾驶模型。
多模态大模型的场景生成技术通过融合视觉、语言和传感器数据,生成逼真的虚拟环境,用于训练和测试自动驾驶系统,提升其在复杂场景下的泛化能力和决策准确性。
Wayve利用多模态大模型生成数据场景。引入了GAIA-1,一种生成世界模型。它利用视频、文本和动作输入来生成逼真的驾驶场景,同时提供对车辆行为和场景特征的颗粒度控制。具体而言,将世界建模视为一个无监督序列建模问题,通过将输入映射到离散标记,并预测序列中的下一个标记。模型中出现的特性包括学习高级结构和场景动态、上下文意识、泛化和对几何的理解。GAIA-1的学习表征能力捕获了对未来事件的预测,结合其生成真实样本的能力,增强和加速了自动驾驶技术的训练。GAIA-1允许视频、文本和动作作为提示来生成多样化和逼真的驾驶场景。Wayve通过在真实世界的英国城市驾驶数据的大型语料库上进行训练GAIA-1,其学会理解和理清重要的概念,如静态和动态元素,包括汽车、公共汽车、行人、骑自行车的人、道路布局、建筑物,甚至交通灯。此外,它还通过动作和语言条件反射提供了对自我车辆行为和其他场景特征的细粒度控制。下图是GAIA-1多模态视频生成。
TTiaMib5iavNgtR7G4jOEH5z3MRXgIicp4ibKia6FOV5bRFppI3FjcA/640?wx_fmt=gif&tp=wxpic&wxfrom=5&wx_lazy=1" src="https://semi-static.oss-cn-hangzhou.aliyuncs.com/article/2024/09/07/1725655940.gif" alt="图片">
数据传输
在自动驾驶数据闭环中,数据传输很关键,它负责将采集到的大量传感器数据从车辆传输到数据处理中心。这一过程不仅需要确保传输高效,还要确保数据的安全性和完整性。数据传输目前涉及数据压缩、数据加密、网络优化等技术。
数据压缩:为了减少传输的数据量,数据压缩技术也被广泛应用。通过压缩算法,原始数据被压缩成较小的体积,从而减少传输时间和存储空间。
数据加密:在数据传输过程中,数据加密是保障数据安全的重要手段。通过加密算法,原始数据被转换成不可读的形式,只有拥有解密密钥的接收方才能还原原始数据。常用的加密技术包括对称加密(如AES)和非对称加密(如RSA)。对称加密速度快,适合大量数据的加密;非对称加密则更安全,但计算复杂度较高,通常用于密钥交换。
网络优化:为了减少数据传输时间,提高传输效率,网络优化是必不可少的。5G网络技术以其高带宽、低延迟的特点,成为数据传输的理想选择。5G网络的高带宽可以支持大量数据的并发传输,而低延迟则确保了数据能够实时传输,这对于需要快速响应的自动驾驶系统至关重要。此外,网络切片技术也可以用于为自动驾驶数据传输提供专用的网络通道,进一步优化传输效率和可靠性。
数据存储
自动驾驶车辆生成的数据量巨大,对存储系统的容量提出了极高要求。例如,一个高清摄像头每秒可以生成数GB的数据。假设单辆测试车可采集10TB的原始数据,预计全年数据存储成本将超过800万美元。车辆数据包括视频、图像、雷达信号等多种格式,每种数据类型可能需要不同的存储和处理策略,增加了存储系统的复杂性。因此存储系统需要具备高扩展性和高可靠性,以应对自动驾驶产生的海量数据。其中云储存的分布式存储架构和对象存储技术,具备大容量、高可靠性、高性能、高伸缩性、低成本等优势。
华为云联合运营商如中国联通,打造了分布式车联网方案,通过“M”个分布式节点和“N”个车用数据接入点,实现了数据的快速、高效上云。提供了专用的数据接入点,以降低数据传输延时,确保数据传输速度更快,实现海量数据24小时不间断的高效上云。
华为建立了3个超大数据中心构建汽车专区,包括乌兰察布、芜湖、贵安专区,充分满足海量数据的存储和计算需求。华为云能够确保数据在整个传输和存储过程中的安全性,提供符合行业标准的安全合规服务,保护数据隐私和安全。并且通过DIS Agent和DIS等技术,实现数据的智能调度和存储,优化资源利用率和成本效率。
数据预处理和数据清洗
车端收集的数据通常来源于各种传感器和车载系统,在用于分析或模型训练之前,必须经过严格的数据预处理和清洗,以确保其质量和一致性,同时提高后续处理环节的效率。车端数据可能来自不同的传感器和设备,每种设备可能都有其特定的数据格式。
数据预处理的第一步是将这些数据转换成统一的格式(格式化),以便于进一步的处理。其中时间戳需要统一格式以同步不同源的数据,传感器读数可能需要转换成相同的量纲或单位系统。车端数据可能由于技术问题或信号干扰而出现缺失。数据清洗需要识别这些缺失值,并根据缺失的机制剔除或者补全。对于传感器读数偏差或数据录入错误。需要通过校准过程或对比其他数据源来识别并纠正这些错误。目前云计算和边缘计算能够进行数据处理。
云计算的强大计算能力和存储空间使得大量数据能够得到有效的处理和分析,支持复杂的机器学习模型训练和持续优化。云平台的弹性资源分配能力使得智能驾驶服务能够根据需求快速扩展或缩减,提高运营效率。
边缘计算则通过在数据源附近进行数据处理,大幅降低了数据传输的延迟,为智能驾驶提供了实时的决策支持。边缘计算有助于减少对带宽的需求,通过在本地处理敏感数据,增强了数据隐私保护,在网络连接不稳定或断开的情况下,也能正常运行。
自动标注
传统的人工标注耗时长,成本高。自动驾驶一个视觉算法训练涉及的图片标注量就达几十万级,人工标注耗时耗力,1小时的视频数据需要800个工时来进行人工标注,100万帧车道线需250个标注员一个月才能完成,效率低下;人工标注的标签体系不统一,标注质量参差不齐。由于标注的标准难以统一,质量参差不齐,数据挖掘效率低下,容易导致错误频发、重复挖掘、返工率高等问题,数量与质量皆难保障。
AI自动标注利用机器学习和深度学习技术自动识别和标记数据集中的对象或事件,极大地提高了数据标注的速度和效率。它减少了人工标注所需的大量时间和劳动力,同时降低了人为错误,确保了标注的一致性和准确性。此外,AI自动标注可以处理大规模数据集,支持复杂的场景和多样的数据类型,为机器学习模型提供了高质量的训练数据,加速了后续的模型训练和迭代过程。
2020年特斯拉自研了数据自动标注。特斯拉的自动标注系统能够处理大量的数据,显著提高了标注的速度和效率,减少了人工标注所需的时间和成本。在车辆行驶过程中,摄像头收集的路面信息,打包上传到服务器的离线神经网络大模型,由大模型进行预测性标注,再反馈给车端各个传感器,当预测的标注结果在8个传感器均呈现一致时,则这一标注成功。
毫末智行将闭集自动标注升级为开集(Open-set)场景中进行Zero-Shot的自动标注通过这样的方式,任意物体都可以被标注了。借助大语言模型的能力,毫末实现了在开集场景中Zero-Shot的快速精准的自动标注。整个过程,可分为多模态模型蒸馏、大语言模型辅助、视觉语言特征交互三个部分。多模态模型蒸馏用于增强自动标注模型对语义、时空、颜色等的基础感知能力,大语言模型辅助用于提供开放词句的表征能力,视觉语言特征交互进行跨模态特征增强和感知,最终完成Zero-Shot的自动标注。
标贝科技利用机器学习算法,能够自动识别和标记图像、视频和文本中的对象,确保数据标注的一致性和准确性。标贝科技基于大模型能力建设数据管线,可实现从目标检测、图像分割之类的基础技术到结合语义、逻辑关系的事件检测,并构建因果数据生产能力,降低智能驾驶企业在生产类似数据时的数据管线搭建成本。
随着BEV感知技术的出现,图像特征开始从2D的透视图转换到了3D空间,输出车体世界坐标系下的3D静态或者动态的结果,而BEV需要的真值数据并且动态物体还需要考虑时序信息,由此4D标注技术成为了未来BEV+Transformer架构发展不可或缺的一部分。下图是地平线基于BEV感知的4D标注技术方案。
模型训练
经过标注后的数据将被用于后续的模型训练,而模型训练主要可分为预训练与微调两个阶段。模型训练会将处理好的数据输入到模型中进行训练,通过不断调整权重和偏置等参数,使模型逐渐拟合数据,达到预期的性能和准确率。然而,整个模型训练过程需要具备较高的计算性能,也需要处理海量的数据,并且模型运行的功耗也会提升,所以超算中心(HPC)成为了解决大规模数据处理、高算力需求以及高功耗的关键。
模型训练:在监督学习中,通过对数据的分析和处理,建立一种映射关系,使得模型能够对新的数据进行分析和预测,并解决各种实际问题。大模型训练用俗话来讲就是人工智能算法训练,大模型训练类似于一个正在学习的学生,而他学习的过程就是大模型训练过程。模型训练的两个阶段:预训练与微调。
预训练:旨在让模型先学习大量无标签的数据,进行自我学习,从而构建语料库的底层模型。由于智驾数据规模较大,若采用单机单卡的训练方式,训练时间较长、精度也会较低,所以主要会采用分布式的训练模式。
微调:旨在使预训练模型的参数适应特定任务的最优值,从而提高模型在新数据上的性能。模型微调类似于增加了一个小的知识模块,让这个小模块去适配下游的任务。举例来说,云端的大语言模型就可以通过预训练的过程来进行无监督的学习,而通过微调可以拟合出下游感知任务的垂域大模型。
为了提升模型训练效率,超算中心成为主机厂未来的必要基础建设,部分主机厂和自动驾驶相关企业已建成或正在布局自己的超算中心。从长期来看,超算中心的价值不仅在于提供强大的计算能力,还在于可以大大减少开发者部署硬件设施时所需消耗在测试与优化上的时间成本。
在特斯拉自建的超算中心中,使用了14000片GPU芯片,其中10000片用于AI训练的H100,4000片用于数据标注。特斯拉上线H100GPU集群的同时,还激活了自研的超级计算机群组DojoExaPOD,开启云端算力竞赛,以支持自动驾驶技术的更新迭代。Dojo于2023年7月开始生产部署,马斯克曾表示,到2024年,特斯拉还将向Dojo再投资10亿美元。预计到2024年10月,Dojo算力会达到100Exa-Flops。
2023年吉利集团星睿智算中心正式上线。吉利星睿智算中心目前拥有超算服务器1000+台,总算力已经迭代到了102亿亿次/秒,星睿智算中心孕育的星睿AI大模型能够赋能吉利汽车各个领域。通信网络传输速度可达800G/秒,存储带宽4.5TB/秒。目前已接入智能驾驶和车联网实验数据近百PB,日均数据增长超过1000TB。此外,小鹏、蔚来、理想、毫末智行、百度、商汤等企业均建立了超算中心。
仿真测试
高阶智驾需要在各种复杂和多样的场景中进行测试,随着数据量的提升,传统的仿真测试已经无法满足高阶智驾对仿真测试的需求。
云仿真凭借其高并发测试、强协同性、易对接性以及满足大算力需求的优点,能够促进高阶智驾数据闭环。
PilotD Automotive精准仿真云计算平台:On Cloud基于云的软件在环仿真平台,可充分利用云端算力进行多节点并行计算,以提高SiL仿真验证的迭代速率。用户可以根据自己的需求创建项目。每个项目包含项目介绍和统计数据,方便了解项目的背景、测试结果。云端数据库可导入、创建传感器,配置传感器的参数,为主车配置参数以及浏览配置场景库。
数字孪生凭借AI和VR等技术,通过虚拟仿真模拟真实道路环境和交通情况,为自动驾驶系统提供丰富的测试场景,降低测试成本和时间,并且能够极大提高仿真测试的安全性。
PanoSim的数字孪生仿真平台 PanoTwin基于数字孪生技术,将物理世界真实场地、真实主车在虚拟世界里构建对应的数字场地和数字主车;同时在虚拟世界里构建丰富的仿真场景和交通,并完成上述两个世界之间的投射与融合,打造出来的虚实融合仿真开发与测试平台。
NeRF和3DGS技术用于仿真测试
(1)NeRF技术
NeRF,全称为神经辐射场(Neural Radiance Fields)。它利用神经网络和机器学习技术,将三维场景转化为一种连续的函数,这个函数可以描述场景中任意一点在任意方向上的颜色和密度。NeRF技术的核心在于使用神经网络对场景进行编码,并利用多视角图像数据进行训练,最终生成一个能够精准描述场景的三维模型。自2019年NeRF技术首次提出以来,其研究进展迅速,在三维场景的重建、动画制作、虚拟现实等领域取得了显著成果。NeRF技术不仅可以生成高质量的三维模型,还可以通过训练神经网络实现实时渲染和交互,目前被广泛用于自动驾驶的仿真领域。
但大多数NeRF方法需要完整的视频序列进行耗时的离线训练,无法实现实时渲染,限制了其实用性。自动驾驶场景本身就是无界限的场景,之前用NeRF的方法建模时,都是假设场景是稳定的,对于动态场景的捕捉力度不足,在有多个动目标、光线变化的场景里,NeRF合成的图质量很差。
(2)3D Gaussian Splatting技术
3D高斯泼溅(3D Gaussian Splatting,简称3DGS)是用于实时辐射场渲染的3D 高斯分布描述的一种渲染技术,通过将多视角图像表示的三维场景转化为各向异性3D高斯点云表示的场景,并能通过参数优化和密度控制来提高重建质量。
与神经辐射场(NeRF)等用位置和视点条件神经网络表示3D场景的神经隐式表示不同,3D GS利用一组高斯椭球来对场景进行建模,因此可以通过将高斯椭球光栅化为图像来实现高效渲染。3DGS在渲染速度、图像质量、定位精度等方面呈现出了非常优异的表现,全面补足了NeRF的短板。同时,基于3DGS的重建场景能够1:1复刻在真实智驾上发现的边缘场景(Corner Case),通过动态场景泛化,提升端到端智驾系统应对Corner Case的能力。下图NeRF和3DGS的对比。
51sim的3DGS技术落地
(1)融合方案突破3DGS技术局限
针对3DGS在实际应用上的短板,51Sim将3DGS通过AI算法驱动与传统图形渲染技术融合,突破了单一技术的局限。
(2)在通过3DGS点云建模的基础上,通过优化的AI融合算法,将静态3DGS场景与此前积累的静态场景库、动态的交通场景库和各类传感器仿真进行了自然融合。确保了整体场景的连贯性和视觉真实感,并实现了场景丰富度指数级增加。同时,利用先进的全局渲染技术,生成高质量视图,确保多相机视角的一致性和高保真度,实现了逼真的渲染效果。
下图是3DGS融合动态、静态交通要素的前后对比
车端验证和数据回灌
车端验证。将训练好的自动驾驶模型部署到实际的车辆上,模型继续用于感知环境的传感器数据处理、决策制定和车辆控制的算法。当车辆在真实世界中行驶,使用部署的模型来处理传感器数据,做出驾驶决策,并控制车辆。在车端验证过程中,需要对模型的性能进行实时监控和评估。包括对车辆的响应时间、准确性、稳定性和安全性的测试。如果在测试中发现问题,如模型对某些特殊情况的反应不够准确或及时,这些问题将被记录下来,用于后续的模型优化。
数据回灌。在车端验证过程中,车辆会继续生成大量的行驶数据,包括传感器数据、模型的决策过程、驾驶员的反馈等。再次对这些数据进行传输和处理,对收集到的数据进行分析,并识别模型在实际应用中的不足之处和潜在的改进点。之后使用新的数据对模型进行重新训练,以提高其性能和适应性。优化后的模型再次部署到车辆上,开始新一轮的车端验证,整个过程形成一个闭环,这就是智驾数据闭环。