自动驾驶汽车必须可以快速、准确地识别遇到的物体,包括停在拐角处的送货卡车、正在接近十字路口的骑行者等。为此,自动驾驶汽车可能会使用一个强大的计算机视觉模型来对高分辨率场景图像中的每个像素进行分类,从而让其不会忽略在低质量图像中可能被遮挡的物体。但是,此种称作语义分割(semantic segmentation)的任务非常复杂,当图像分辨率高时,需要进行大量的计算。
据外媒报道,美国麻省理工学院(MIT)和麻省理工学院-IBM沃森人工智能实验室(MIT-IBM Watson AI Lab)及来自其他地方的研究人员合作研发了一款更高效的计算机视觉模型,大大降低了上述任务的计算复杂性。该款模型可在车载计算机等硬件资源有限的设备上实时、准确地进行语义分割,使自动驾驶汽车能够在瞬间做出决策。
EfficientViT模型(图片来源:MIT)
现在最先进的语义分割模型都可直接学习图像每对像素之间的交互情况,因此其计算会随着图像分辨率的增加而呈二次方增长。因此,虽然此类模型非常准确,但是处理速度太慢,无法在传感器或手机等边缘设备上实时处理高分辨率图像。
MIT的研究人员为语义分割模型设计了一个新型构件,其能力与此类最先进模型相同,但是复杂性只达到线性计算,而且实现了硬件高效操作。
研究人员的成果是一个用于高分辨率计算机视觉的新型模型系列,在将其部署到移动设备上时,其运行速度比原来的模型快9倍。重要的是,与此类替代方案相比,该款新模型的准确性与之相同,甚至更高。
该技术不仅可以用于帮助自动驾驶汽车实时做出决策,还可以提高医学图像分割等其他高分辨率计算机视觉任务的效率。