深度解析三维机器视觉成像方法

　　工业4.0时代，三维机器视觉备受关注，目前，三维机器视觉成像方法主要分为光学成像法和非光学成像法，这之中，光学成像法是市场主流。

　　飞行时间3D成像

　　飞行时间成像（Time of Flight），简称TOF，是通过给目标连续发送光脉冲，然后用传感器接收从物体返回的光，通过探测光脉冲的飞行（往返）时间来得到目标物距离。光发射出去后，会被物体反射回来，并且被相机检测到。

　　目前市面上的 ToF 产品按技术路线可以分为两大类：1.DToF（直接测量飞行时间，direct-ToF）；2.IToF（间接测量飞行时间，indirect-ToF）。 DTOF测量发射脉冲与接收脉冲的时间间隔。其核心组件主要有VCSEL、单光子雪崩光电二极管SPAD，以及时间数字转换器（TDC）。DTOF会在单帧测量时间内发射和接收N次光信号，然后对记录的N次飞行时间做直方图统计，其中出现频率最高的飞行时间tof用于计算目标距离。 ITOF大部分间接测量方案都是采用了一种测相位偏移的方法，即发射正弦波/方波与接收正弦波/方波之间相位差。从应用角度来说，DToF功耗低，体积小适合于在较小的设备使用，并且由于抗扰性较好，在户外的使用上也更胜一筹。并且由于DToF的原理，测量距离增大时精度不会大幅衰减，能耗也不会大幅提升。而IToF的图像分辨率较高，在物体识别，3D重建以及行为分析等应用场景中能够重现场景中更多的细节信息。总体而言，TOF成像可用于大视野、远距离、低精度、低成本的3D图像采集，其特点是：检测速度快、视野范围较大、工作距离远、价格便宜，但精度低，易受环境光的干扰。例如Camcueb3.0具有可靠的深度精度（《3mm @ 4m），每个像素对应一个3D数据。

　　扫描3D成像

　　三维扫描的基本定义是通过一定方法获取被扫描物体的几何构造和表面图像。扫描3D成像方法可分为扫描测距、主动三角法、色散共焦法。扫描测距是利用一条准直光束通过1D测距扫描整个目标表面实现3D测量的；主动三角法是基于三角测量原理，利用准直光束、一条或多条平面光束扫描目标表面完成3D成像，如图2所示。色散共焦通过分析反射光束的光谱，获得对应光谱光的聚集位置，如图3所示。

　　图3

　　三维扫描成像的最大优点是测量精度高。但缺点是速度慢、效率低；用于机械手臂末端时，可实现高精度3D测量，但不适合机械手臂实时3D引导与定位，因此应用场合有限。三维扫描应用的领域有：（1）逆向工程。通过三维扫描获取物品三维信息，然后输入到软件中进行修改，完善，最后得到精确的三维模型。（2）产品检测。三维扫描被应用于生产线上，检测产品的形状，控制产品的质量。（3）生物医疗领域。例如牙齿矫正，器官复制等。（4）考古领域。例如文物复制。

　　结构光投影3D成像

　　结构光技术就是使用提前设计好的具有特殊结构的图案（比如离散光斑、条纹光、编码结构光等），然后将图案投影到三维空间物体表面上，使用另外一个相机观察在三维物理表面成像的畸变情况。如果结构光图案投影在该物体表面是一个平面，那么观察到的成像中结构光的图案就和投影的图案类似，没有变形，只是根据距离远近产生一定的尺度变化。但是，如果物体表面不是平面，那么观察到的结构光图案就会因为物体表面不同的几何形状而产生不同的扭曲变形，而且根据距离的不同而不同，根据已知的结构光图案及观察到的变形，就能根据算法计算被测物的三维形状及深度信息。

　　结构光投影三维成像目前是机器人3D视觉感知的主要方式。其成像系统是由若干个投影仪和相机组成，常用的结构形式有：单投影仪-单相机、单投影仪-双相机、单投影仪-多相机、单相机-双投影仪和单相机-多投影仪等。根据结构光投影次数划分，结构光投影三维成像可以分成单次投影3D和多次投影3D方法。单次投影3D主要采用空间复用编码和频率复用编码形式实现。由于单次投影曝光和成像时间短，抗振动性能好，适合运动物体的3D成像，如机器人实时运动引导，手眼机器人对生产线上连续运动产品进行抓取等操作。但是深度垂直方向上的空间分辨率受到目标视场、镜头倍率和相机像素等因素的影响，大视场情况下不容易提升。多次投影3D具有较高空间分辨率，能有效地解决表面斜率阶跃变化和空洞等问题。不足之处在于：精度容易受到投影仪、相机的非线性和环境变化的影响且抗振动性能差，不合适测量连续运动的物体；对于粗糙表面，结构光可以直接投射到物体表面进行视觉成像；但对于大反射率光滑表面和镜面物体3D成像，结构光投影不能直接投射到被成像表面，需要借助镜面偏折法。偏折法对于复杂面型的测量，通常需要借助多次投影方法，因此具有多次投影方法相同的缺点。另外偏折法对曲率变化大的表面测量有一定的难度，因为条纹偏折后反射角的变化率是被测表面曲率变化率的2倍，因此对被测物体表面的曲率变化比较敏感，很容易产生遮挡难题。

　　立体视觉3D成像

　　立体视觉字面意思是用一只眼睛或两只眼睛感知三维结构，一般情况下是指从不同的视点获取两幅或多幅图像重构目标物体3D结构或深度信息。目前立体视觉3D成像方法可以分为单目视觉、双目视觉、多（目）视觉和光场3D成像等。单目视觉深度感知线索通常有：透视、焦距差异、多视觉成像、覆盖、阴影、运动视差等。在机器人视觉里还可以用镜像1，以及其他 shape from X10等方法实现。双目视觉深度感知视觉线索有：眼睛的收敛位置和双目视差。在机器视觉里利用两个相机从两个视点对同一个目标场景获取两个视点图像再计算两个视点图像中同名点的视差获得目标场景的3D深度信息。典型的双目立体视觉计算过程包含下面四个步骤：图像畸变矫正、立体图像校正、图像配准和三角法重投影视差图计算，如下图。

　　图5 双目立体视觉系统与计算过程示意图

　　多（目）视觉成像也称多视点立体成像，用单个或多个相机从多个视点获取同一个目标场景的多幅图像，重构目标场景的三维信息。其基本原理如下图所示。

　　图6 多视点成像基本原理

　　多视点立体成像主要用于下列几种场景：使用多个相机从不同视点，获取同一个目标场景多幅图像，然后基于特征的立体重构等算法求取场景深度和空间结构信息；从运动恢复形状（SM）的技术。使用同一相机在其内参数不变的条件下，从不同视点获取多幅图像，重构目标场景的三维信息。该技术常用于跟踪目标场景中大量的控制点，连续恢复场景的3D结构信息、相机的姿态和位置。