高通在2023年国际计算机视觉与模式识别会议上，展示先进研究成果并将生成式AI引入边缘侧

带来包括完全运行在终端上的ControlNet、支持基于大语言模型的数字健身教练和面向XR的3D重建的技术演示，并展示公司已被业界认可的研究论文

作者：高通技术公司工程技术副总裁Ning Bi、高通技术公司高级技术总监Fatih Porikli

6月18日至22日，IEEE/CVF国际计算机视觉与模式识别会议（CVPR）在温哥华举行，该会议不仅是计算机视觉，也是AI领域最重要的年度活动之一。会议期间，高通展示了已被业界认可的研究论文和技术演示。本文将介绍CVPR 2023上高通的展示亮点。

技术演示

我们在AI、计算机视觉、XR和自动驾驶汽车等领域的研究，已从核心理论创新扩展到下游实际应用，例如：

运行在手机上的全球最快的ControlNet演示

几个月前，我们展示了全球首个运行在Android手机上的Stable Diffusion终端侧演示，该演示在CVPR上再次呈现。此外，高通AI研究演示了ControlNet图像生成图像模型，该模型拥有15亿参数，可以完全在手机上运行。ControlNet是一项生成式AI解决方案，被称为语言-视觉模型（LVM）。它能够通过调整输入图像和输入文本描述，更精准地控制生成图像。在这项演示中，只用不到12秒即可在移动终端上生成AI图像，无需访问任何云端，便能提供高效、有趣、可靠且私密的交互式用户体验。这项惊艳的技术演示通过一套跨模型架构、AI软件和神经网络硬件加速器的全栈式AI优化而实现。在此过程中使用的高通先进AI工具和硬件包括：高通AI模型增效工具包（AIMET）、高通AI软件栈和高通AI引擎。

支持基于实时视觉大语言模型的健身教练

高通AI研究利用生成式AI打造出在准确度和真实感方面超越现有解决方案的数字健身教练。健身教练能够提供实时互动，鼓励、纠正并帮助用户实现其健身目标。我们的演示展示了基于视觉的大语言模型如何支持情境式、多模态的实时交互。用户的运动视频流先经过动作识别模型进行处理。根据识别的动作，状态编排器（stateful orchestrator）提供提示并输入给大语言模型。健身教练通过一个语音合成（文本生成语音）的虚拟化身，将大语言模型的答复送回给用户。这项演示的实现主要归功于三项关键创新：为检测精细化健身动作而训练的视觉模型、为生成基于视觉概念的语言而训练的语言模型，以及能够协调两个模态之间流动交互的编排器，便于实时对话式的辅导反馈。凭借上述创新，就能够支持健身教练为用户提供实时的沉浸式动态交互体验。

全球首个在手机上进行的1080p神经网络视频编码

终端侧AI的另一项全球首创即在移动终端上的1080p视频编码和解码过程。神经网络编解码器用途十分广泛：可针对特定视频需求进行定制，通过生成式AI的优势对感知质量进行优化，扩展至全新模态，在通用AI硬件上运行。但同时也将带来难以在计算能力有限的终端上应对的诸多挑战。高通设计了全新高效的神经网络视频帧间压缩架构，支持在终端上进行1080p视频编码。在演示中，神经网络视频编解码器能够准确地保留高清视频的丰富视觉结构和复杂动作。

面向XR的3D重建

高通成功开发了先进的实时3D重建系统，该系统在准确度和高效方面表现出色，能够在任何环境下赋能创建高精度的3D模型。该解决方案在移动终端上运行，从单个图像生成深度图，并将其组合成3D场景。有了准确的实时3D地图，开发者可以解锁大量AR和VR应用。我们设计的互动演示展示了高通的创新实力，用户可向场景中的真实物体（比如墙壁和家具）射击虚拟球，见证基于精确物理计算的逼真反弹效果。该感知技术提升了沉浸式体验，并有望加速元宇宙的广泛普及。

面向智能摄像头的计算机视觉

基于AI的计算机视觉的进步，推动照片和视频拍摄能力持续演进。我们演示了语义分割、单目深度估测和基于实例分割的虚化效果、背景替换、电影模式，以及锐度、平滑度、清晰度与对比度方面相关的图像质量提升。这些神经网络在搭载骁龙平台的终端上实时运行视频增强特性。

为增强安全性的驾驶员监测技术

驾驶员监测系统（DMS）演示中展示了如何利用计算机视觉判断危险驾驶状况以提高安全性。驾驶员监测系统通过座舱内主动红外摄像机实时监测驾驶员的特征，如眼睛睁开程度、凝视方向、头部姿势、面部表情和肢体动作等，从而判断驾驶员的驾驶状态。该系统在检测到类似注意力分散和瞌睡等危险驾驶情况时会向司机发出警告，最终帮助挽救生命。驾驶员监测系统和先进驾驶辅助系统（ADAS）能够同时在Snapdragon Ride Flex系统级芯片上同步运行。

XR虚拟头像

无论逼真或卡通风格，虚拟化身是赋能元宇宙中沉浸式XR体验的基本要素。借助一张或多张2D照片，利用终端侧AI生成个性化网格和相应的纹理。使用头戴式摄像机来观察用户眼睛和嘴巴的移动，实时渲染虚拟头像。由此，可生成更接近于标准现实重建和动画后的虚拟化身，并根据环境进行光照处理。我们的目标是在元宇宙和人机界面中使用的骁龙XR平台上提供数字人。

研究论文

类似CVPR的顶级行业会议在推动AI领域发展方面发挥关键作用，能够为业内人士展示经过业内严格评审、确立最先进技术水平的论文，推动具有深远影响的研究。CVPR 2023期间，高通共有八篇论文被主会议收录，主要从两大类别推动计算机视觉前沿发展：充分利用数据和打造更佳架构。

充分利用数据

在《DistractFlow：通过真实干扰和伪标记改进光流估计模型》中，我们提出了专门解决在训练光流估计模型时数据可用性受限问题的一项全新数据增强技术。当缺少有代表性和多样化的数据样本时，将会引发这一问题，这是运动估计中的固有问题。我们提出的方法能够克服这种局限性，通过将真实干扰混入已标记的输入帧，可以增强模型的泛化能力。当未标记数据可用时，我们使用伪标记和交叉一致性正则化，将增强功能扩展到自监督设置中，这样能够大幅增加训练对的数量，无需复杂、昂贵的数据采集。多项基准测试的综合评估显示，我们的方法都能够提高光流估计表现。

《面向单域泛化的渐进式随机卷积》提出了使用基于渐进式随机卷积（Pro-RandConv）的新型图像增强方法的数据高效框架。这一渐进式方法能够通过减少卷积核感受野中非局部像素的影响，缓解增强图像中的语义失真，通过逐渐增加风格多样性，来生成更有效的、更有代表性的域。在单域和多域图像分类、识别和分割基准测试中，这种泛化策略优于最先进的方法。

基于学习的视线估计需要大量准确标注视线的训练数据。在《ReDirTrans：面向视线和头部重定向的latent-to-latent转换》中，我们提出了名为ReDirTrans的神经网络，基于指定方向值，以一种可解释的方式在高分辨率全脸图像中重新定向视线方向和头部方位，latent-to-latent转换。通过结合ReDirTrans和预训练的e4e-StyleGAN对，我们创建了ReDirTrans-GAN，能够准确重定向视线，同时保留身份、表情和发型等其他属性。

在《DejaVu：通过再生式学习增强密集预测》中，我们展示了面向分割、深度估计和表面法线预测等密集预测任务，利用条件图像再生作为训练时的额外监督来改进深度网络的全新框架。这一框架能够让基础网络学习在密集预测中嵌入准确的场景结构。这将带来更准确的预测，具有更清晰的边界和更佳的空间一致性。通过在多个密集预测基准测试中的广泛实验，我们展示了在训练期间采用这一框架的效果，它可以在不增加计算成本的情况下优于最先进的方法。

创建更佳架构

在《X³-KD：面向3D物体检测的跨模态、跨阶段、跨任务知识提炼》中提出的方法，是一个面向多摄像头3D物体检测（3DOD）跨不同模态、任务和阶段的综合性知识提炼框架。具体来讲，我们提出在透视图特征提取阶段，从实例分割教师（X-IS）跨任务提炼，通过视图变换提供无模糊误差反向传播的监督。在变换后，我们通过基于激光雷达的3DOD教师中所包含的信息，运用跨模态特征提炼（X-FD）和对抗性训练（X-AT），提升3D世界多摄像头特征表示。该模型在关键数据集上表现优于最先进的方法，可面向基于雷达的3DOD进行泛化。

在《EcoTTA：通过自蒸馏正则化实现内存高效的连续测试时间自适应》中，我们提出了一种简单有效的方法，从而能够以内存高效的方式改进连续测试时间自适应（TTA）。由于TTA主要在内存有限的边缘侧终端上进行，因此减少内存至关重要，但以前的TTA研究中经常忽略这一点。此外，长期自适应往往会导致灾难性遗忘和误差累积，这将阻碍在现实部署中对TTA的应用。我们的方案从两方面来解决这些问题。首先，它使用轻量级元网络使原始网络适应到目标域。通过降低反向传播所需的中间激活的大小，尽可能地减少内存。其次，新型自蒸馏正则化能控制元网络输出不明显偏离原始网络的输出，从而保留来自源域的经过良好训练的知识。因此，我们的方法保留了来自源域的经过良好训练的知识。这种高效的策略在各类基准测试中都远超其他面向图像分类和语义分割的顶尖方法。

《面向类别增量学习的密集网络扩展》解决了增量学习的问题。文章提出了一种称为密集网络扩展（DNE）的全新网络扩展方法，旨在实现准确性和模型复杂性之间更好的平衡。这种平衡通过在任务专家网络的中间层之间引入密集连接来实现，经过特征共享和复用完成从旧任务向新任务的知识迁移。这种共享是通过基于全新任务注意力模块（TAB）的，融合跨任务信息的跨任务注意力机制实现的。基于DNE的方法与之前的方式相比，准确度提升了4%，而模型规格则相似甚至更小。

在《PartSLIP：通过预训练的图像语言模型面向三维点云提供小样本零件分割》中，我们提出了一种利用预训练语言-视觉模型（LVMs）的最新进展实现零样本和小样本可泛化3D零件分割的新方法。目前，语言-视觉模型只能在2D图像上运行，因此不能直接用于3D零件分割。我们设计了一款3D融合模块，能够处理一个物体的多个视图结果，进行融合后可以在三维点云上进行零件分割，并在3D基准数据库中达成令人信服的成果。