Image Warping(图像扭曲/图像校正)广泛用于各种计算机视觉和图形任务,例如图像编辑、光流、图像对齐和全向视觉(例如VR)。传统方法应用逆坐标变换来插值输入空间中缺失的RGB值。然而,基于插值的方法会导致输出图像中出现锯齿和模糊伪影。
本文引用地址:尽管社区已经探索了一系列的解决方案,但其一般存在着性能,光谱偏差,或无法评估图像扭曲的频率响应等问题。
韩国大邱庆北科学技术院和三星的研究人员提出了一种用于图像扭曲的深度学习技术。与其他现有方案相比,团队的发明可以降低存储速度并将分辨率提高3dB。另外,与基于信号处理的图像插值技术(双三次插值)相比,相关技术减少了屏幕的混叠现象,从而能够实现更自然的视频输出。特别是,它可以清晰地恢复图像的高频component。团队表示,这种方法可以用于VR,并且无需额外训练的情况下就能够在投影透视方面质量上优于其他扭曲方法。
基于信号处理的图像插值技术(双三次插值)通过指定图像的特定位置来在各种环境中保存期望的图像。它具有节省内存和速度的优点,但会降低质量并令图像变形。
为了解决这个问题,社区开发了基于深度学习的超高分辨率视频图像转换技术,然而,它们大多数是基于卷积人工智能的技术,缺点是像素之间的值估计不准确,并可能导致图像变形。克服所述缺点的隐式表达神经网络技术正在引起人们的注意,但隐式神经网络技术的缺点是它不能捕捉高频component,并且它需要增加内存和速度。
所以,韩国大邱庆北科学技术院和三星的研究人员将图像分解为多个频率,以便在图像中表达高频component的特征,并使用隐式表达神经网络技术将坐标重新分配到分解的频率,以便更清晰地显示图像。
这是一种将图像深度学习技术傅里叶分析与隐式表达神经网络技术相结合的新技术。它可以通过人工智能网络解决恢复图像中的基本频率component,改善无法恢复高频component的隐式表达神经网络。
如图1所示,团队提出了一种用于图像扭曲的局部纹理估计器(LTEW)。相关算法利用了从输入图像估计的傅里叶特征和坐标变换的雅可比矩阵。在几何学中,雅可比行列式表示局部放大率。因此,在MLP表示之前,他们将空间变化的雅可比矩阵乘以每个像素的傅里叶特征。另外,像素形状的空间变化先验对于增强神经功能的表征能力至关重要。然后,通过给定坐标变换的梯度项数值计算由方向和曲率描述的像素形状。
基于LTEW的图像扭曲网络由编码器(EΨ)、LTEW(hψ)和解码器(gθ)组成。编码器(E⑪)设计有深度SR网络,如EDSR、RCAN、RRDB,无需升级模块。解码器(gθ)是具有ReLU的4层MLP,其隐藏维数为256。LTEW(hψ)以局部网格(δx)、形状(s)和特征图(z)为输入,并包括振幅估计器(ha)、频率估计器和相位估计器。
振幅和频率估计器由具有256个信道的3×3卷积层实现,相位估计器是具有128个信道的单个线性层。
他们假设变形图像在点f(xj)附近具有相同的纹理。因此,使用最近邻域插值找到xj处的估计傅里叶信息(Aj,Fj)。然后,将估计相位添加到局部网格(δx)和估计频率之间的内积。在解码器(gθ)重新采样图像之前,将振幅和正弦激活输出相乘。
团队指出,实验证明LTEW在尺度和单应变换方面都超过了现有的扭曲方法。尽管先前的扭曲技术使用卷积和多项式插值作为重采样模块,但他们基于LTEW的隐式神经函数将连续坐标作为输入。
如上面的图7,图8,图9和图10所示,团队提出的LTEW在一系列的比较测试中均实现了出色的效果。与其他现有方案相比,团队的发明可以降低存储速度并将分辨率提高3dB。另外,与基于信号处理的图像插值技术(双三次插值)相比,相关技术减少了屏幕的混叠现象,从而能够实现更自然的视频输出。
值得一提的是,团队提到了全向成像(ODI)。随着虚拟现实的快速发展,ODI已成为产品开发的关键。等矩形投影(ERP)广泛用于头戴式显示器的成像管道。由于从球形网格到矩形网格的投影,像素在高纬度附近稀疏分布。
在验证算法的泛化能力时,团队提出的LTEW学习了空间变化的属性,所以这一方法无需额外训练的情况下就能够在投影透视方面质量上优于其他扭曲方法。
相关论文:Learning Local Implicit Fourier Representation for Image Warping
团队表示,“这次开发的技术非常出色,因为它显示出比现有图像扭曲技术更高的恢复性能和更少的内存消耗。我们希望所述技术在未来用于图像质量恢复和图像编辑,并希望它将为学术界和行业做出贡献。”