机器视觉走过70年，到了哪个发展阶段？

发布时间: 视觉,AI,机器,计算机,3D,传感器,应用,我们,市场,领域

来源: 国际电子商情

谈到计算机视觉，作为现在相当火的一门学科，离我们的日常生活其实非常近。比如人脸识别、摄像头拍路边的指示牌就能直接翻译成本国文字，或者可以选中、复制图片中的文字信息，这些都可认为是计算机视觉/机器视觉的典型应用。

计算机视觉早期实验可以追溯到上世纪50年代；70年代时就有了区分手写和书面文字的机器视觉商业应用。简单地说，计算机视觉就是让计算机或机器，理解并解释影像画面、视觉数据，某种程度替代人眼来执行观察、识别、定位、检查、测量、决策等工作。机器视觉系统能够自动获取、分析视觉影像，提供信息并控制机器或工作流程。

其应用范围当然不止于拍照的人脸识别，比如我们此前参观英飞凌的工厂，就发现他们应用机器视觉来检查某些工序之下，半导体产品的良率问题——相比人工检查要高效不少；微观层面，EDA与foundry厂也基于机器视觉来发现芯片制造的缺陷......扩展开去，早前工业4.0这个词流行起来时，我们就知道机器视觉在实现工业自动化的过程里扮演十分重要的角色。

如果我们简单地将计算机视觉的工作流程切分成3大块，大致就有影像捕捉、影像处理、影像分析与理解。基于此，本期《国际电子商情》封面故事采访到了思特威、Prophesee、银牛微电子、Imagination Technologies。其中思特威和Prophesee主要是图像/视觉传感器供应商，相关影像捕捉；Imagination则涉足后两者——实际上Imagination早前也开发过ISP（图像处理器）；银牛微电子专注于3D视觉，其角色定位应当是覆盖了3个流程的。

虽说就产业链的角度，其中还有大量其他市场参与角色，比如上游的光源、镜头，中游的系统集成商，以及硬件之外的软件、算法供应商等等组成部分；不过我们还是期望本文能够简单勾勒出当前机器视觉市场的发展潜力。聊聊这个已经有70多年发展历史的领域，现在怎么样了。

各种语境下探讨机器视觉

首先明确一下机器视觉（machine vision）与计算机视觉（computer vision）这两个词究竟在说什么。针对这两个词的定义和区别，各种不同的资料给出的解释都存在差别。艾媒咨询此前有报告提出，机器视觉是为计算机视觉技术的工程化，“计算机视觉为机器视觉提供图像和景物分析的理论和算法基础，机器视觉为计算机视觉的实现提供传感器模型、系统构造和实现手段”。

这话说得似乎有一定道理，听起来是不同语境下不同维度的提法。从维基百科等资料来看，“机器视觉”这个说法更偏向于“计算机视觉”在工业领域的应用。我们这次采访的多名专家也有类似的说法。比如银牛微电子联合创始人兼副总裁何火高先生就提到：“机器视觉技术赋予工业设备‘看’的能力”，“机器视觉是计算机视觉技术一个非常重要的应用领域，计算机视觉是机器视觉技术的重要组成部分。”

Imagination Technologies产品总监Rob Fisher提到：“机器视觉可认为是计算机视觉的一个子集，计算机视觉包含更广范围的应用。”产品总监Gilberto Rodriguez则说：“计算机视觉和机器视觉的概念受到机器学习的影响，在发生迅速变化。”

Prophesee多名专家在回答中提到机器视觉与计算机视觉的界限模糊，“在同一领域里，我们经常可以看到它们被互换使用。在我们看来，计算机视觉属于更广泛的视觉技术领域，而机器视觉则是计算机视觉的一个子集。”“更具体来说，我们可以将机器视觉视为一组任务导向型的视觉技能，应用于一些特定的应用（物体的存在检测、质量控制、尺寸检测、自动检查、通过/失败决策...）。而计算机视觉则是一个跨学科的领域，在技术层面包含了最先进的视觉感知和计算。”

则本文将不再特意区分计算机视觉与机器视觉两个词，讨论范围只限定于“机器视觉”的含义部分。（比如很多行业报告和本文不将汽车ADAS系统算作机器视觉范畴，即便它应用了诸多计算机视觉技术；但在某些文献里，这两个词的确可以互换）

其次要阐明的一个问题是，计算机视觉与AI是什么样的关系。毕竟现在我们经常看到这两个词同时出现。以及了解了两者的关系，也就更能搞清楚计算机视觉的发展前景。在查资料时，比较令我们惊讶的是，几乎所有专家都提到，计算机视觉就是将AI应用于视觉世界，甚至说计算机视觉是AI的一个子集。按照我们的前期认知，计算机视觉的确有部分应用神经网络技术的方案，但这不是计算机视觉的全部。

后来我们发现，普罗大众对于“AI”的定义更加宽泛，它泛指对于人类行为方式或其他人类特性、智能进行模仿。那么机器视觉本来就是在特定领域对人眼和理解做模拟，自然可将其归属于AI。不过实际上，现在我们常说的AI并不会有这么宽泛的定义。

Gilberto说：“计算机视觉原本用于描述由人类编写、在一般或专用计算硬件中执行的算法。随着机器学习性能提升，以及高效异构架构的存在，现在我们可以通过训练（AI training）来获得算法，不再需要由人去写代码。这改变了我们对于计算机视觉概念的认识。”他特别强调，“随着AI和机器视觉技术更多的应用，传统计算机视觉技术的采用正在变少。”这里的“AI”的含义实际有了窄化。

当我们说2012年在ImageNet图像识别大赛里，AlexNet卷积神经网络（CNN）脱颖而出，还基于GPU做加速，这是对AI的革新。而且AlexNet当时也被认为是计算机视觉领域，影响最为深远的技术创新。那么AI的概念，在此处就已经窄化为深度学习（也是很多人对AI的狭义定义）。而计算机视觉对于深度学习的应用，才是这两年计算机视觉技术发展的重大趋势。在这个语境里，就不能再说计算机视觉是AI的子集了；而应当说AI在推动计算机视觉技术的发展。

AI火箭般的推力

AlexNet应当是AI推动机器视觉技术发展的一个代表；到当代ResNet残差神经网络每每成为我们聊AI，以及AI芯片公司发布产品时必提及的常客。这其实就表明当代计算机视觉的发展，是被AI推着走的。就像Gilberto说的，传统计算机视觉技术的分量在显著减少；或者说从编程的角度来说，那些依据人类经验写的明确的规则判断，会变得越来越不及AI技术。

“尤其是近年来人工智能的热潮，对机器视觉技术的发展起到了推波助澜的作用。AI进入了一个新的层级，不仅仅是比算力，比指标，而是让机器真正具有人的特征和属性。今后AI将会在机器视觉领域扮演越来越重要的角色，并引领其今后的发展方向。”何火高先生说。

在深度学习应用于机器视觉领域的问题上，虽然我们无法提供确切的数字。不过从我们采访的这几家企业，都能看出AI比重的加强。Imagination不必多说，这家企业目前主推的产品除了GPU之外，就是NNA神经网络加速器。其GPU本身也用于计算机视觉任务，“比如说360°去扭曲、重叠、信息显示等。” Gilberto说。

而“卷积神经网络非常善于寻找和分类视觉对象...”“NNA是我们主要的计算机视觉处理器之一。NNA非常适合部署在高效率的机器学习计算中，实现从传统计算到机器学习的过渡。”当然还有其RISC-V CPU也是机器学习对任务进行预处理/后处理的组成部分。

银牛微电子主打3D双目立体视觉技术。值得一提的是这家企业自研的NU4000芯片，何火高先生表示：“NU4000不但集成了深度引擎，AI算力引擎，通用CPU核，SLAM引擎，使应用场景的扩展性增强，集成度也大幅提升，真正成为从深度感知到AI运算到系统控制的单芯片解决方案SoC。继NU4000集成了第三方DSP和CNN引擎以后，未来银牛将自研的其他AI处理能力，也将集成到下一代芯片上。”他透露，未来计划要发布的芯片产品，除了主控CPU更强、能耗比更出色，3D深度视觉性能会更好，AI算力会越来越强劲。

思特威作为一家CIS（CMOS图像传感器）供应商，前两年就开始探讨将AI算力与CIS更靠近的解决方案——这其实也是这两年包括索尼等CIS厂商普遍在做的事情。思特威在本次采访中谈到 “AI智能传感器平台”，即“在图像传感器上集成边缘AI计算，能有效地提高关键区域（如人脸或车牌）的分辨率，降低延时，并拥有高帧率及超低功耗，为人脸识别、高级辅助驾驶系统、无人驾驶、机器人等先进的人工智能应用，解决因帧率不够高、分辨率不足导致的响应慢、演示稿及识别率低等问题，提升整个人工智能系统的能效。”

传统CIS产生的数据应用AI其实算是相当普遍的。但我们本次采访的另一家企业Prophesee——这家企业所推的基于事件的视觉传感器，是我们认为可能不关乎AI的一种传感器类型。因为这种传感器和传统基于帧的图像传感器是不同的，它感知的是场景变化信息，静态部分不会被捕捉；它更适用于常规的简单规则判断。不过Prophesee联合创始人兼CEO Luca Verre告诉我们，最近芯鼎科技（iCatch）以及日本的DMP和Restar都分别宣布了与Prophesee的合作，开发基于事件的视觉传感器AI方案，以及全球“首个基于事件的边缘AI视觉系统和服务”。

图1，AI Research Funding Portfolios and Extreme Growth研究中计算机视觉占比近一半

无论这其中的AI具体是如何实施的或者在哪个环节，以基于事件的视觉传感器都在与AI发生结合（或辅助）这一事实，机器视觉与AI已经到了不可分割的地步。毕竟AI的一大热点不就是计算机视觉吗？

去年乔治城大学发布的一篇论文AI Research Funding Portfolios and Extreme Growth对600个大型AI研究集群做了分析，发现其中相关计算机视觉研究领域的占到了将近一半（图1）。何火高先生打比方说：“计算机视觉是AI的最重要应用场景，因为视觉占人类所有感官输入的80%。” 基于AI当前为市场热点的事实，我们都可以说计算机视觉当前正在“如日中天”的发展阶段。

发展空间几何？

要判断一个行业的发展阶段有很多种方法，包括看当前的市场增长率、新技术的迭代周期，以及市场参与者的份额分布情况。比较匪夷所思的是，我们看了大约不下10篇相关机器视觉的行业报告，诸多研究机构对该行业的市场价值预估数量级相去甚远——数据跨度有4倍之多；而且对分属行业、区域的重要性也有各自不同的解读。这可能和不同研究机构对于“机器视觉”的定义有差异，或统计的范围不同有关。

我们从市场规模数据、应用方向，以及新技术点几个方向来推测机器视觉市场目前所处的发展阶段。

对包括Grand View Research、The Business Research Company、前瞻产业研究院等机构的报告数据取个中值，机器视觉全球市场规模今年大约在130-150亿美元左右，预计2021-2026的年复合增长率（CAGR）在8-12%，应该说仍旧是高速增长中的行业。

其中有多家研究机构的报告提到，该市场“高度分散”，有大量市场参与者。2020年排名前10的市场参与者所占整个市场的份额还不到20%。这里的“市场参与者”主要说的应该是系统级供应商（如工业相机），典型如Cognex（康耐视）、Keyence（基恩士）等。一般电子产业的高度分散，意味着该领域尚有巨大的竞争空间。不过这个问题或许还应当仔细了解该领域不同层级的供应商情况，涵盖光源、镜头、传感器、算法与软件等各个相关组成部分。

至于机器视觉的应用市场和方向，主要包括汽车、食品与饮料、制药与医疗、电子与半导体、工业机器人、包装印刷等。在工业操作中取代人工检查与测量，是机器视觉比较大的应用市场——毕竟全社会的发展方向，本来就是人力成本在不断攀升的过程。机器视觉的本质是自动化的组成部分，所以我们才总说工业4.0与机器视觉是息息相关的。

图2，2020-2026工业与自动化相机市场前瞻；来源：Yole Développement

要说其中哪个行业成为机器视觉发展的重点，调研机构的说法也差别不小。如前瞻产业研究院认为电子及半导体（制造）是当前机器视觉最大的下游市场；而Mordor Intelligence和Grand View Research则认为最大的应用方向是汽车制造。从数据来看，这两者应当的确在伯仲之间（虽然可能仍有量级差距）。与此同时，汽车行业的发展潜力是普遍被认为最大的。

另外有关北美和亚太市场谁更大的问题也有分歧，但亚太市场发展潜力更大亦为共识...... 要验证这些数据的可靠性，Cognex的财报大概是个方法。从Cognex公司2020年报来看，这家公司30%的营收来自于消费电子，20%来自物流行业，20%来自汽车，还有30%为其他。美国是其最大市场，欧洲其次。不过如果将其大中华区与亚洲其他地区营收相加，则的确仅次于美国市场。

当然一家公司的情况不能说明整个行业。以我们的经验，分析报告数据的语焉不详、量级差异以及结论不同，都表明该行业尚在上升期早期。我们认为当前其技术发展阶段，仍有海量需求等待填补；或者说至少该市场离发展“成熟”还相去甚远。

如前文所述，计算机视觉这一交叉学科的发展本身也有些年头了。但实际上很多技术的起步都很早，比如这两年才变得很火的基于事件的视觉传感器，Luca告诉我们这种技术早在上世纪80年代就有人提出了，但技术真正走向成熟却是这两年。而这类看起来比较新兴，且拥有较大发展前景的传感器，Yole Développement预计神经形态AI到2030年会达到70亿美元市场规模，届时CIS市场大约有9%的份额会被此类传感器吃下。这就表明，新技术的涌现在促成整个行业的发展；以及机器视觉行业本身也在尝试各种新技术。

图3，3D视觉市场未来几年将达到最大涨幅；来源：Allied Market Research

3D视觉感知更不必多说，好几份报告都特别提到了智能摄像头系统的发展，很大程度将归功于3D成像市场的增长——这一点我们在此前的3D ToF技术报告中曾提过。因为3D机器视觉当下已经能够提供精准、实时的信息，给予机器视觉更多的数据。3D感知与成像本来就是个可单独拿来探讨的领域。在3D视觉/成像这个赛道上，银牛微电子着眼的是stereoscope，具体为双目视觉。

“今天机器视觉最大的不同，是未来发展将会越来越多地应用3D视觉技术，尤其是密集的双目立体视觉技术（dense depth stereo）。”何火高先生谈到，“就像地球物种大爆发的寒武纪一样，因为有双目立体视觉能力，物种的进化和交流才迅速得繁盛起来。”

“机器以前不知道图像中的物体之间的相互位置关系和距离，因此经常产生视觉错觉和误判。随着3D/立体视觉感知技术的产生和发展，尤其是双目立体视觉技术的发展，对机器视觉中产生的错觉和误判就有了非常有效的工具去避免。从而使得3D/立体视觉感知技术在机器视觉中的应用越来越广泛，重要性和高效率也不断得到业界的认可和重视。”

“作为AIoT异构平台的引领者，银牛的核心竞争优势不但包括AI运算处理能力，还有非常独特的双目立体3D视觉算法引擎和集成的通用CPU核心，这些都是在机器视觉领域不可或缺的重要组成部分。“

从这个角度来说，以银牛微电子的产品为代表的3D视觉技术，未来拿下更多市场是不言而喻的。实际上即便是传统的CIS，思特威也在尝试就机器视觉做技术方面的加强，包括我们所知的高帧率、全局快门、非可见光下成像（远红外增强技术）等。从思特威的官网来看，“机器视觉”是作为其一大应用方向来展示的。无人机、扫地机器人、AR/VR、智能扫码、人脸识别、工业相机和智慧交通系统，都是思特威看到的机器视觉行业未来的前景。

从技术可创新和当前涌现出的市场新势力来看，如果将这些机器视觉的总合确切地称作一个“行业”，则该行业即便在技术层面都还有大量可发展的空间。

且其下属分支领域都有进一步被寡头化的空间，尤其在AI技术越来越成为主流之际。虽然面向下游不同应用领域时，机器视觉技术的需求可能是千差万别的：Prophesee表示基于其合作经验，即便同样是基于事件的视觉传感器，不同行业对技术的需求都是各不相同的。所以这个问题可能还有进一步探讨的空间。

在我们观察机器视觉领域时，实则还有很多其他的收获，比如某些技术趋势：像是多种传感器的融合（包括视觉传感器与其他类别传感器），边缘计算的崛起、算力单元部分向传感器短靠拢，以及能源效率的持续进步等。但真正的大方向仍旧是：在AI技术持续迈进之际，机器视觉即便沉淀了过去几十年的发展历程，现在这个时间点才真的算是刚刚开始。