Fig.1 夜景中的行车在线建模能力
Fig.2 地下停车场在线地图建模效果
Fig.3 用户自家停车库停车环境建模
Fig.4 死角环境中的在线建模
Fig.5 高稳定的3D重构,能看清马路台阶
Fig.6 高精度停车环境重构,包括停靠车辆和其他非结构信息
给我的感觉是,“令人感到惊艳”。其惊艳的地方注意体现在以下几个角度:
各种光照条件
无论是复杂的室内环境,还是霓虹灯遍布的城市道路环境,新的辅助系统都可以稳定且精确的对环境信息进行3D重构和在线更新,这里面依赖了大量实时SLAM和Occupancy融合的策略;
各种复杂环境
从上述图片中可以看到,新的辅助驾驶系统可以对“行车”、“泊车”场景同时兼容,也就是国内常说的“行泊一体”,之前Tesla一直没怎么关注“泊车”场景,其实不是他做不了,而且这类场景之前在美国需求不大,现在有时间集中优化这一块儿,就一次性更新了。
高精度3D重构
从上述图片中,Tesla辅助驾驶可以识别环境中的典型语义信息,包括“行车”中的斑马线、道路边缘、方向箭头等,也包括“泊车”中的车位、墙体、柱子、停靠车辆等一系列信息,同时可以对以上信息进行高精度的3D重构,包括Fig.2中灯光暗淡的地下车库,Fig.3中的用户自家停车库(还能看到其中杂乱的货物),Fig.5中的马路牙子,和最后一张Fig.6中的近距离墙面和柱子等信息。
用几个词总结他的性能就是:“行泊一体”、“数据闭环”、“强泛化”、“弱地图”。下面我从几个不同的角度分析特斯拉辅助驾驶的技术特点:
语义占据栅格
不难看出,特斯拉的核心技术路线在于其极其稳定的占据栅格(Occumpancy Map)输出,此前的OccMap主要应用于行车环境,而且多为对于道路边界和移动车辆的估计,而从最新版的OccMap(Fig.1)中可以看到其对于精细的道路环境、方向箭头、人行道几何信息的描述精度已经有了很大提升。对比与此前刚放出来的结果(Fig.7),其性能提升可见一斑。这个过程中,除了采用了我们所熟知的占据栅格网络之外,应该在深度估计, Voxelization, 语义信息结合部分做了非常扎实的工作,只用Deep的OccMap很难对细节进行精细建模。
与此同时,我们需要考虑当时的路况处于光照暗淡且霓虹灯频闪的夜色十字路口环境,因此这里的深度估计、语义提取、OccMap估计需要同时兼容环境信息该表导致的视觉偏差。但从Demo中能看到结果如此稳定且丝滑,那也就以为着Tesla的新版辅助驾驶有一套完整的数据闭环机制。值得一提的是,至少在建模和定位这种工作上,看不出Tesla采用Fancy的完全End-to-end Learning机制,还是参照Robotics的思维模式推进,该用传统的继续采用传统,Learning有优势的地方借鉴Learning机制。
数据自动闭环
再好的网络架构,也都是需要批量的数据进行优化才能呈现出其最终的优势。最有所有的方案都会Coverage到几类策略上,但是最后决定系统性能的往往是高质量的数据。从以上几个结果中,我们不难发现Tesla的辅助系统可以在我们生活中常见的一些场景做到很好的泛化,同时这些场景还需要考虑到对应环境中环境条件信息的一系列变化(光照、天气、视角、动态障碍物、非机构特征等)。
Tesla的辅助驾驶系统高鲁棒性体现在他可以可以根据从用户端收集的海量数据自动完成数据的自动筛选、自动评级、自动Labeling和Corner case检测等一系列具体步骤。进而在每一次的系统升级时,用户都可以看到辅助驾驶系统在生活中各种场景中的性能提升和泛化。从这个角度来讲,泊车场景可能早就在整套辅助驾驶中的优化清单之中,只是此前的优先级不够罢了。
精度够用就行
这一点可能会有争议,但我暂且放在这里供日后推敲。一般在机器人领域和无人驾驶领域,我们都喜欢追究极致的高精度,但是在特斯拉最新的demo中,我反而觉得精度“够用就行”,无需追求厘米级甚至是毫米级的精确建模定位。高精度--毫无疑问意味着高性能传感器、高计算成本、高耗时地图建模、高存储空间、高传输带宽,同时考虑到上述占据栅格和数据闭环中面临的问题,高精度毫无疑问会导致整个系统过于臃肿且不切实用。
而在我们实际的“行泊”车环境中,我们人压根不需要高精度信息,无论是高速上的便道、十字路口的转弯、地下车库的泊车和自家杂乱的停车房,我们都不需要以上高精度信息。而精度释放出来的算力和空间,可以更对应用于占据栅格的条件优化和数据的多模态闭环中。
世界模型引擎
我个人觉得,Tesla Parking Assistant应该不只是为了汽车做的。更进一步的,Tesla Bot的感知系统也是基于这套统一的地图表征架构,而同样的语义占据栅格、数据自动闭环、多模态Voxel地图同样可以被应用于人形机器人系统中,架构甚至不需要大规模改动,因为无人驾驶本身就是简化版的“机器人”系统而已。在此基础上,一旦可以构建无人驾驶系统对于环境的理解、行为的推理、复杂道路的规划决策和全局的最优计算;那就势必可以完成机器人室内外复杂环境主动建模定位、复杂环境推理、室内外决策规划等一系列任务。而这一点本身就是通用机器人领域对于世界模型的理解。