现在大家讨论机器视觉,已经不再聚焦“它是否能取代人类视觉”来展开,因为机器视觉过去多年的发展,已向大家充分证明了它的高效率。
不过,目前机器视觉在各行各业的应用,主要聚焦在3C电子、汽车制造、半导体、光伏、锂电、物流/包装行业等标准化、自动化极高的应用场景。
其实,在市场中还有许多非标准化的应用场景,比如,农产品检测、机车车下零部件巡检等,这些市场虽然看上去并不算太大,但累加起来的规模不容忽视。
在工业领域,各细分行业之间可谓千差万别。对于机器视觉系统而言,每一项工序都需大量计算来支撑,这对于许多细分领域的企业来说,“砸钱”从零开始训练机器视觉系统既费时又烧钱,一般的小企业难以承受这种压力。就算有细分企业愿意投钱训练模型,也会受限于可供训练的样本少,而较难以有突破。
契机出现在2022年11月底,由于ChatGPT爆火而“出圈”,各界探索“AI大模型+行业”的热度高涨。对属于人工智能(AI)分支的机器视觉而言,“大模型+机器视觉”的探索也带来一些新机遇。
AI大模型赋能机器视觉
机器视觉系统通常由照明光源、光学镜头、摄像机、图像采集卡、图像检测软件、监视器、通讯单元等组成,该系统可满足实时监控、自动化控制和图像识别等需求,适用于智慧工厂、智慧交通、智慧城市等场景。
这其中的每一个组成单元,都可能会影响整套系统的精度。比如,硬件的质量和参数会直接影响图像的分辨率、清晰度、对比度、噪声等;软件的逻辑和效率也会影响图像的处理速度、准确度、稳定性等。
·以前靠全局快门、HDR提升精度
在AI大模型爆红之前,就存在许多提升机器视觉检测精度的方案,其中包括使用全局快门图像传感器、利用高动态范围(HDR)等。
高速运动物体造成的形变伪影可能产生的误差,将在机器视觉场景下被无限放大,全局快门拥有高帧率、无畸变的特点,这使之非常适合工业面阵应用和智能交通系统,包括安森美、意法半导体、思特威等公司,均有应用于机器视觉的全局快门图像传感器方案。
安森美总裁兼首席执行官Hassane El-Khoury曾在几年前的一次媒体沟通会上强调,公司在工业生产中的机器视觉应用方面非常重视全局快门技术。他认为,该技术是实现最快吞吐量的技术,能够捕捉到快速移动的物体,同时产出非常清晰的图像,适用于库存管理、实时质量检测、质量控制等应用。
El-Khoury指出,工厂在智能制造方面需要提高作业的效率,需要提高自动化,所以其吞吐量上涨非常快。为了使得生产线赶上吞吐量的增长,需要生产线具备全局快门的技术和能力,不管是库存管理、质量检测,还是在其它工业自动化方面,都能够得到更好的满足。
采用全局快门只是提升机器视觉系统精度的一种方式,另一种方式是利用HDR。简单地说,动态范围是指相机捕捉场景明亮和黑暗区域细节的能力,更高动态范围的相机产生的图像具有更真实的照明和更少的高光溢出或丢失的阴影。比如,豪威科技在2023年5月底发布的OV02E,是一颗具有交错式HDR的全新1080P全高清图像传感器,适用于需要深度检测的机器视觉和物联网应用。
不过,在一些光学成像环境相对复杂,或者瑕疵类型很难被明确定义的场景中,机器视觉设备难以达到检测要求的混检场景,仍然依赖人工进行视检,这个问题依然需要研发人员来解决。
所幸的是,在大模型走红之后,我们看到了更多的可能性,也有了更多的选择。
·SAM模型横空出世
2023年4月6日,Meta AI公开了Segment Anything Model(SAM,分割一切模型)。SAM使用了分割数据集SA-1B,其内包含了1,100万张图像,总计超过10亿张掩码。SAM架构主要包含三个部分:图像编码器;提示编码器;以及掩码解码器。
该模型在训练时被设计为交互性的可提示模型,因此可以通过零样本学习转移到新的图像分布和任务中。由于其底层以NLP模型的通用方式,解决图像分割和识别问题,所以SAM模型可应用于各种领域,用于查找和分割图像中的任何对象。SAM模型极大地降低了图像处理的门槛,是机器视觉领域的底层突破性技术。
SAM模型可以看作是一种通用模型,它是可处理多种不同类型任务的AI模型。而专门处理某一种类型任务的AI模型,则被视为专有模型。当然,通用模型处理过的任务在精度上一般低于专有模型。
SAM模型虽然无法一步到位把任务处理得十分完美,但是它如此受机器视觉领域关注,是因为它的出现给业界树了一个新范式。以前面对不同的任务需求,开发者要从零开发不同的专有模型,而现在开发者只需在SAM模型基础上进行优化,让它更加符合自己的任务要求,这样可节省时间成本和资金成本。
对于需要应用机器视觉技术的自动驾驶、智慧交通、智能安防、智慧城市等领域,此前这些领域因为长尾场景过多,需贴大量数据标签,导致其训练成本高昂,而有了SAM这种通用的图像分割模型之后,以上领域的相关定制产品成本会降低。
另外,那些由于样本量少而难有突破的领域,也会迎来新的发展,比如非标准化应用场景。前文提到的农产品检测、机车车下零部件巡检等细分领域,未来我们将看到机器视觉将应用到更多新的领域中来。
AI视觉SoC开始出现
随着多模态大语言模型的问世,机器视觉市场迎来了新的机遇和变革。市场上开始陆续出现AI视觉SoC,它在SoC中添加了AI功能。因为在为非AI应用构建的SoC上实现视觉、语音识别和其它深度学习/机器学习算法时,SoC的资源会不够用,所以开发者选择和整合IP,确定了AI SoC的基础效率,构成了AI SoC的本征特性。随着AI SoC的复杂性不断增加,这种使用工具、服务和专业知识来降低功耗、提升性能和削减成本变得益发重要。
安霸半导体软件研发总监汤坚表示:“如果说,在机器人市场,传统的视觉SoC是机器人的‘眼睛’,给机器人带来环境感知能力。那么AI视觉SoC则是机器人的‘眼睛+大脑’,给机器人带来环境感知、信息处理、分析决策等多种更复杂的能力。有了AI视觉SoC的加持,机器人也将变得越来越智能。”
目前除了安霸半导体之外,还有中国大陆的爱芯元智、亿智电子等也有发布AI视觉SoC产品。同时,从AI视觉SoC这类芯片可以看出,随着AI进一步深入发展,我们也会在市场上看到更多其他不同种类和用途的AI芯片诞生。
小结
实际上,直到近年来,伴随AI、深度学习等技术快速发展,机器视觉技术才有更进一步的发展。
比如说,除了前文提到的细分领域之外,生物/3D脸部识别也是一个机器视觉的应用,目前已经广泛应用于智能手机、笔记本电脑、个人平板、智能手表、智能门锁、考勤机、自助付款机等,还有汽车类的智能座舱、医疗类的自动测温仪等设备。
随着通用大模型的进一步普及,未来还会有更多领域的企业,在通用大模型基础上训练自己的专有模型,从而把机器视觉推向更深、更广的市场。