AI时代,什么样的数据才是MLOPS需要的数据?用什么方法来标注数据?智能驾驶数据解决方案如何研发迭代?
时下,道路上搭载L2级以上智能驾驶系统的车辆逐渐增多,安全问题备受关注。为了在竞争中脱颖而出,加速智能驾驶应用安全落地,智能驾驶企业必须依靠海量的高质量标注数据来训练优化算法模型。
伴随人工智能(AI)大模型应用的快速进展,作为AI技术底层基础的数据,既需要高质量、大规模,也需要多样性。特别是相比其他应用场景,智能驾驶的落地场景更加复杂,需要有大量场景化的高质量数据做支撑。
从感知到数据标注
智能驾驶车辆通过雷达、激光雷达、摄像头、超声波等各种传感器收集数据,实时感知周围环境,为实现行车安全提供最基础的数据。随着环境感知、智能决策、控制与执行系统等核心技术的快速发展与日渐成熟,智能驾驶汽车已经开始从实验室走向道路实地测试及商业化落地应用。
6月,梅赛德斯-奔驰击败特斯拉,L3级有条件智能驾驶技术获得美国加州机动车辆管理局(DMV)认证,成为首个被授权在美国人口最多的州销售搭载上述系统量产车的车企;接着又宣布将在年内培训超过600名全球数据和AI专家。8月,美国加州公用事业委员会(CPUC)批准Cruise和Waymo在旧金山提供7×24小时、区域不限、全无人、可收费服务。一夜之间,对Robotaxi的所有限制全面解禁。
作为智能驾驶领头羊,Waymo L4级实际路测里程已超过2000万英里(3218.6万公里)。国内智能驾驶同步企业百度实际路测里程也已超过1000万公里。由此可见,智能驾驶技术不断突破的一个关键支撑是背后庞大的数据量,更少不了数据标注的“用心陪伴”。
数据标注既要质量、效率又要顾及成本
基于深度学习算法的智能驾驶技术离不开数据标注和训练。数据标注的精度决定算法的准确率,训练的广度决定算法的适应性和鲁棒性。路测数据均为非结构化数据集,未经验证的原始数据中存在数据重复、矛盾、错误、缺乏分类等问题,都可能影响算法的训练与调优。
特别是开放道路智能驾驶对感知系统的实时性和安全性要求极高,相关算法的准确度与场景适配度需要达到很高的水准,这对数据标注的规模与数据产出质量提出了更高的要求。
现在,用数据闭环来提升智能驾驶能力已成为大多数智能驾驶公司的共识。不过,现实中驾驶场景难以穷尽、极其复杂且不可预测,这就需要AI模型的快速迭代升级。
事实上,智能驾驶的成熟不仅是数量和效率的问题,质量和成本也不容忽视。特别是标注成本将决定智能驾驶能否早日走进人们日常生活。
有人调侃说:“人工智能有多少智能,就有多少人工”,数据标注也差不多。只有用“智能”替代“人工”,让标注自动化,才能提高数据标注效率,并降低成本。
显而易见,要想提高数据标注效率,就要有高效的数据标注工具和平台,通过高效的预标注、辅助标注等相关算法,打通数据闭环,真正满足算法侧的需求。
AI大模型无疑是提升标注质量和效率、降低成本的一把“金钥匙”,替代人工标注并大幅提升效率,缩减标注时间和成本。
从AI工程化解决方案到大模型
2015年,云测数据总经理贾宇航还在美国旧金山,彼时街道上已有不少Robotaxi在试验路测,无人化趋势就此展开。2017年前后,AI及数据行业机遇显现,云测数据正式对外商业化,希望通过提供高质量数据为AI应用场景提供支撑,成为场景化数据服务专家,发力智能驾驶、智慧家居、智慧金融和智慧城市四大领域。
面向智能驾驶,云测数据率先推出了激光雷达点云标注工具,实现了多模态3D融合标注。一路走来,云测数据一直将场景化、高质量数据概念贯彻始终。
在AI商业化落地过程中,云测数据从研发、预研到持续在线优化,推出了智能驾驶数据服务解决方案,利用行业基础数据集覆盖预研阶段数据需求,以场景化数据服务覆盖各种传感器,通过定点开发和使用闭环数据满足客户实际标注需求。在持续优化迭代中,云测数据以数据闭环工具链集成为抓手,用数据服务帮助客户持续优化迭代算法,有效获取智能驾驶需要的数据。
2021年,云测数据推出智能驾驶AI数据解决方案1.0,进一步彰显了数据闭环系统集成的重要性。今年,AI高速发展,BEV Transformer等大模型浮出水面,引入了激光雷达,摄像头数量也在增加,需要处理的数据维度更多,数据量和文件尺寸更大,复杂性非常高。
此时,云测数据的数据闭环能力、自动标注能力、数据管理工具链、人工效能评估等方面能力也羽翼渐丰。围绕更擅长的场景,云测数据对1.0进行了全面升级,通过系统集成将大模型预标注能力与人工标注完美结合,提升了数据集和场景化数据服务能力,尤其是全面提升了数据标注、流转效率。
事实上,目前国内有100多家公司推出了大模型,呈现一种“乱战”局面。一些入局大模型的公司也在加快布局数据标注团队,打造全链条AI服务商。作为第三方数据服务公司的云测数据又有何优势可言呢?
贾宇航自信地表示:“独立的第三方数据标注服务公司态度中立,以领域划分推动行业发展,而不是基于某个企业的某种应用;凭借对前沿趋势的研判,数据标注布局方面投入也更大。”
AI领域研发包括很多内容,从算法、框架、算力或传感器到数据标注。这么多排列组合带来了一个痛点,因为标准不同,每个to B或研发企业都会遇到大量迁移的问题。只有硬件标准、算法框架和数据标注规则统一,才有助于企业充分积累经验。现在,大家对数据标注标准中的标注流程、方法和正确率很少提及。为此,云测数据正在与行业协会和许多车企推进行业标准的制定。
他说:“AI技术正处于规模化商用阶段,标准不统一会影响行业发展。只有标准化的东西越来越多,定制化的内容才能越来越少;才能挖掘一个企业真正的实力,让时间产生‘复利’。”
数据服务直面挑战和机遇
在智能驾驶快速发展和应用落地进程中,AI数据服务面临着怎样的挑战?在贾宇航看来,随着技术的不断发展,AI数据的高要求既是挑战更是机遇。如:自动驾驶中所面临场景是开放道路,需要的数据是海量的;针对不同场景的Corner case如何识别和判断,从而保障覆盖更多场景下的数据质量;以及通过数据闭环体系,提升数据处理、流转效率,加速推动算法研发发展等等。
回顾过去,在数据标注质量方面,现阶段数据标注处理难度与几年前比有本质的区别,需要结合3D点云加图像及时序在3D空间进行3D框标注可行驶区域。有鉴于此,如何确保数据标注的质量和准确性,考验的是数据公司的服务经验、标注员的能力及工具链的支撑。
时效性要求也是车企的刚性需求,数据服务公司需要通过工具链、服务解决方案的持续迭代和人员培养来适应新的需求。
从车企角度看,产品研发要经历预研、研发和持续迭代期。预研阶段主要是利用行业基础数据集,如特定目标检测或可行驶区域、智能驾舱的人脸、姿态等;研发阶段是将证明可行的方案放在特定车型上完成传感器定点和算法验证。之后,需要用专门的传感器完成数据采集、清洗和标注。在这个过程中,云测数据主要承担训练数据全生命周期的AI数据处理工作。
进入持续迭代阶段,车企要在灰度发布和实际投产中搭建自己的数据闭环,将不同的bad case持续回流到系统中,然后进行数据清洗和人工标注。在这个阶段,云测数据可以提供系统集成、数据处理平台工具能力,以持续优化并迭代算法。
升级赋能 彰显效率、质量和成本优势
2021年云测数据发布的智能驾驶数据解决方案1.0基于产品、服务、工具三驾马车,以时间延续为主线一站式满足了智能驾驶研发初期到落地的数据训练需求。在智能驾驶规模化量产阶段,其中很多技术已经商用,数据闭环系统已在搭建和完善中。
云测数据智能驾驶数据解决方案2.0以系统集成能力为核心,创建了新一代AI工程化数据处理工作台,在质量、效率和成本等方面具有明显的优势。
2.0集成了不同模型的预标注能力,包括图像整帧、自选物体、区域、点云批次识别和文本识别等,重新定义了基于预标注的人工标注效能,如能效看板、综合看版等。
针对特定算法类型的数据持续优化迭代,涵盖点云4D叠帧、语义分割联合标注和智能ID轨迹预测。数据集也更加丰富,纳入了更多场景数据,标注方法也从原来以点线面体为主进化到融合4D标注规则和标注工艺。在服务方面,数据标注精度、反馈给企业的时效性有了大幅提升。
在数据标注效率方面,与人工标注相比,BEV空间标注效率约提升1.5倍以上。例如,人工标注3D点云拉框需要先选择属性,再选择车头朝向。现在,人工只需大致框选一个区域,就完成了自动贴合,基于一些特定标签类别就能实现自动选择。其效率比人工拉框至少快了1.5倍到两倍。又如4D标注地面箭头,原来需要每帧标注,现在基于4D标注加空间坐标,只要标注对应一帧,通过映射即可将30帧结果叠在一起,完成多传感器融合4D标注,效率更高。
至于2.0为什么要支持人工和自动标注交互,贾宇航解释说,现在算法还不很完善,还需要人工标注。区域内算法识别相对精准,而区域框线边界还需要人工微调个几像素。现在,人工标注的应用主要是算法完全没见过的一些场景,或更换传感器时算法不能很好识别的情况。而当算法逐渐具备了更强能力,就可以实现自动标注,但这个自动标注结果还不足以用于算法训练,还需要人工进行一些校验,以确保识别结果的准确性。
从趋势看,伴随自动标注能力提升,标注将逐步从手工衍化为算法自动标注、人工校验和人工标注。随着算法的实际量产,数据闭环能力增强,整体标注数据量和手工数据标注量依然在逐年上升。以往是百分之百人工标注,现在是人工标注、自动标注、人工校验各有一定占比。未来可能自动标注占比会越来越大。不过,虽然人工标注的占比在减小,但伴随人工智能行业的逐步发展数据量日渐增加,人工标注的量仍会持续增加。
贾宇航说:“2.0和1.0相比,在保证数据标注质量的前提下,最重要的是在效率提升的同时依然保持了高质量的输出,AI数据训练过程综合效率提升200%。”之前3D点云标注对工具链的性能要求就很高,持续优化和提升的4D标注性能可确保BEV标注有足够的性能和效率提升。效率的提升主要体现在改变了原来的异步操作,如数据传到工具,标注后导出结果,再迁移到企业服务器上进行训练。现在,完全通过API流程接口实时流转,效率更高。
2.0在支持了更多智能驾驶标注类型,如现在诸多企业基于BEV+Transformer算法研发,对BEV视角环视拼接加点云融标注成为了主流。支持特定类型也使云测数据能更快速响应客户数据标注需求。
技术迭代将使智能驾驶数据数据应用呈现多元化。在成本方面,通过对线上回流数据进行标注,不断迭代模型,数据将越用越智能;将标注数据流转至仿真平台用于评测,往复使用可高效利用数据价值;人工检查纠正算法结果,输出业务信息闭环,可以通过人机交互实现降本增效。
利用数据服务 推进智能驾驶商用落地
综上所述,针对当下智能驾驶应用场景更加丰富、数据闭环已成为智能驾驶量产落地核心飞轮的发展趋势,云测数据以集成数据底座为核心,全面升级了数据标注及数据管理工具链;还结合数据应用开发基于数据流转的数据应用接口,从数据维度支持客当前主流模型开发所需任务类型;人工标注与自动标注算法的交互能力升级,全面提升了数据标注效率。
与此同时,云测数据还在参编行业标准,与国内外主流车企、Tier1、头部激光雷达和算力芯片公司以及一些Robotaxi公司精诚合作,利用数据服务帮助客户提效提质。
数据标注恰似沙里淘金,难度之大可想而知,既要坚持,又要有独门绝技。贾宇航表示,云测数据将围绕智能驾驶领域,结合企业算法研发优势持续迭代产品,同时不断提升人员标注能力,从数据维度支持客户大模型应用;在人工智能数据服务方面,将推出面向垂直行业大模型产业化部署数据解决方案。未来,云测数据将立足企业的长久发展,释放企业创新力量,全方位推进智能驾驶的商用落地进程。