当CIS变得不那么重要,手机拍照在追求什么?

2021-01-06  

这对于手机CIS市场份额第一的索尼而言,恐怕算不上是一个好消息。今年8月,Twitter上出现一组消息源未经考证的数据,指出今年第一、二季度,三星与索尼的图像传感器市场份额缩短到有史以来的最接近。索尼图像传感器在今年第二季度的市场份额下探至42.5%,三星上升到21.7%。在《国际电子商情》来看,这与三星乃至更多市场参与者,如SK海力士,在高像素相关的制程工艺上的优势有关。

成像市场的价值恐怕正在发生一场转变。由于智能手机在成像领域占据了最大市场份额(Yole Developpement去年年中的数据显示,移动CIS占到整个CIS销售额的70%),本文主要以智能手机这个门类的应用为例,来谈成像市场正在发生的转变——原本以CIS为主的市场正逐步转至以图像/视觉处理器,如AI专核、ISP(图像处理器)等为主,这种变化将创造更大的市场价值。

另外,智能手机成像的特殊性在于,其他领域的成像,如医疗成像、工业领域的机器视觉等,在图像传感器层面是以“拍得到”为主要目标,并且更注重图像数据的后处理与计算。而手机拍照向来以“拍得好”为主要目标,它对图像传感器的重视由来已久。

智能手机制造商在宣传其拍照的卖点时,仍然更倾向于CIS本身的高像素和大尺寸。但成像质量的决定因素已经从CIS,向图像数据的处理与计算环节倾斜,它体现的也正是数字芯片本身的技术发展以及AI技术的快速推进对传统光学技术发展的挑战。

前两年就开始出现的苗头

联发科在2018年提出了“真AI相机”的概念。该概念包含了三个主要的因素:1.高像素、大尺寸CIS;2.多核ISP;3.高性能的AI专核。其中,第一点是成像领域的共识,而后两点都与图像数据的后处理(Post Processing)相关。

如果说ISP是处理(Processing)数据,那么AI及其他视觉处理器就是对数据做更深度的计算(Computing)。ISP的重要性在过去总被反复提及,但其在成像领域,尤其是手机拍照上的地位远不及CIS。此外,AI专核也是成像领域这两年的香饽饽。在此基础上,“真AI相机”这一营销概念的提出,本质上是为了吸引终端设备制造商来采用联发科的SoC产品,不过它却真正将ISP与AI专核提到了与CIS相同的高度。

无论是专为摄像头配备的ISP,还是AI处理单元,它们在拍照中的应用都可以认为是这两年颇流行的Computational Photography(计算摄影)。普罗大众对于“AI拍照”的理解,恐怕还停留在美颜、人脸识别、去背景或者让天空更蓝、草地更绿这样的层面。实际上,AI对于成像的协助,已经深入到了拍照的方方面面,这部分将在下文探讨。

除了联发科这样的芯片厂商之外,谷歌的表现也值得关注。据《国际电子商情》了解,谷歌在2017年为其Pixel 2手机配备了专门的Pixel Visual Core(Pixel视觉核心,图1),这是由该公司自主设计的基于Arm系统的SiP封装图像/视觉处理器。这枚处理器可以看作是一个完全可编程的图像、视觉与AI多核专用架构(domain-specific architecture)芯片,其应用在Pixel 4之上迭代为Pixel Neural Core(Pixel神经核心)。

当然,谷歌Pixel系列手机在移动领域普遍更具有前瞻性和试水性质。谷歌在Computational Photography领域有着多年的沉淀,他们认为与高通在SoC内部提供ISP与AI Engine能力相比,针对拍照来自研专用的图像处理硬件更加高效。

图1,Pixel手机的Pixel Visual Core内部

在前智能手机时代,外置ISP/DSP是个常见的概念,但随着芯片集成大趋势的到来,当代图像处理硬件已很少以独立的形态存在于SoC之外。谷歌的这种做法进一步提升了图像/视觉处理器的地位:虽然外置一颗独立图像/视觉芯片的方案未必会成为趋势,但是在拍照的各环节中,后处理已经成为更重要的组成部分。

谷歌Pixel手机有个更有趣的传统:相同型号的CIS可以连续用在两代Pixel手机上,比如Pixel 3和Pixel 4的主摄都采用疑似索尼IMX363的CIS。即便如此,手机的拍照表现仍然会有飞跃,这个特点一直为人们所津津乐道。这也表明,谷歌在成像上非常重视图像处理,而不仅只关注图像传感。

再回过头来看今年的高通骁龙865针对成像的堆料:骁龙865的ISP部分支持每秒2 GigaPixel的速度,同时也支持4K HDR、8K视频拍摄以及最大2亿像素的照片拍摄。在与第五代AI Engine合作的情况下,这颗ISP能够快速识别不同的拍摄背景、人、对象。如今,高通会着重宣传每一代骁龙旗舰中的成像。

再看看苹果今年发布的A14,其CPU、GPU性能提升的幅度并不算大,但AI专核部分的Neural Engine(神经引擎)增加到16个核心,这让其算力提升到了11TOPS;A14 CPU内部还特别包含了升级过的机器学习AMX模块(矩阵乘法加速器)。如今,手机上的AI处理器总被人诟病没有太多应用场景,但它们在Computational Photography上正默默发挥作用。

愈发明确的市场现状

索尼在今年5月推出了两款“智能视觉传感器”——IMX500与IMX501。该公司宣称,这是全球最早加入了AI处理能力的图像传感器。这两颗芯片的传感器部分,是比较典型的背照式CIS;而集成的边缘AI处理部分,包含了DSP的逻辑芯片,也包括了AI模型所需的临时存储空间,属于比较典型的边缘AI系统。更严谨地说,IMX500/501恐怕不应仅定义为“传感器”。

这两颗芯片在配合云服务的情况下,在数据处理阶段仅获取元数据作为输出,这样能够降低数据传输延迟,减少功耗与通讯的成本。这类设计的本质是:将部分“后处理”的能力集成到图像传感器上。这样一来,录制视频时就能进行更高精度、实时的对象追踪。目前,这两款传感器主要应用于零售、工业设备。

另外,在配套解决方案上,索尼也推出了用于这类集成AI能力的CIS的软件订阅服务。加入了AI数据分析的潜在市场价值大于传感器市场本身。虽然索尼并不期望这项服务能够在短期内盈利,但是它非常看好其长期发展。即便IMX500/501并不面向智能手机产品,这一步也能体现索尼在CIS业务开发的思路转变:即开始从单纯的图像传感,往图像/视觉处理做扩展。毕竟传统CIS市场的增长速度正在放缓。

今年年中,Yole Developpement发布了一份题为《2019图像信号处理器与视觉处理器市场与技术趋势》的报告。该报告明确提到:“AI彻底改变了视觉系统中的硬件,对整个行业都造成了影响。”

“图像分析增加了很多价值。图像传感器供应商们开始对将软件层集成到系统中感兴趣。如今图像传感器必须跳出单纯的捕获图像这一能力之外,再对图像做分析。”

“但要跑这样的软件,就意味着高算力和存储需求,也就有了视觉处理器的出现。ISP市场2018-2024年的年复合增长率稳定在3%,即ISP的市场价值到2024年会达到42亿美元。与此同时,视觉处理器市场也会迎来爆发增长,2018-2024年的年复合增长率为18%,到2024年,其市场价值会达到145亿美元。”

图2,2018-2024年,图像/视觉处理器的出货量与市场规模预期,来源:Yole Developpement

这个值当然仍未达到CIS年度总价值,上述两个市场相加才大约超过今年的CIS市场规模(今年CIS行业产值预计为172亿美元)。这还需要注意,CIS市场的增速正在放缓以及此处并未考虑视觉处理芯片配套的软件市场。起码索尼认定,其长期的市场发展潜力大于CIS市场本身。Yole Developpement的预测数据显示,ISP在市场中所占比重将逐步降低,而更注重计算的视觉处理器显然更为紧俏(图2)。

“值得注意的是,很多传统的行业参与者,在应对AI趋势时显得比较局促。这也让其他更多参与者加入到业务竞争中,比如苹果、华为,Mobileye这样的初创公司,甚至其他领域的企业,像是英伟达。”这是成像市场扩展了纵深的表现。

AI究竟为手机拍照带来了什么?

今年3月,法国知名影像实验室DxOMark曾刊文提到,近10余年来,智能手机拍照的画质提升超过4EV,其中1.3EV来自图像传感器/光学技术的提升,还有3EV是来自图像/视觉处理器(图像数据后处理)带来的提升。这已经基本颠覆了大众对于提升拍照画质,就是要提升CIS技术的基本认知。

而图像/视觉处理作为一个相当古老并发展多年的议题,AWB(自动白平衡)、ANR(主动降噪)、3DNR(3D降噪)、BLC(黑电平校正)、HDR等原本都属于ISP的常规项目。近两年,在图像后处理中AI拍照被提得最多的功能,包括人脸识别、拍摄对象识别、语义分割、智能美颜等。

这些的确是AI为成像带来的价值,但AI参与手机拍照的画质提升,渗透到了上述常规项目中。谷歌在Computational Photography方面的很多的研究也涉及到了这些组成部分,比如针对低光照场景下的自动白平衡,传统算法在白平衡修正上显得无能为力。谷歌几年前就应用了机器学习:通过向模型输入大量白平衡修正到位的照片,来训练自动白平衡的智能模型。

谷歌在Pixel手机成像的诸多环节和特性上应用了机器学习。比如拍照取景时的实时HDR,再比如视频拍摄的防抖。在数据后处理时,首先在第一阶段进行动作分析、获取陀螺仪信号、结合光学防抖动作;其次在motion filtering环节结合机器学习与信号处理,来预测相机本身的运动轨迹;最后再最终的帧合成环节,对快门与微动造成的画面失真做补偿。

图3,来源:Google AI Blog

更为典型的例子是模拟背景虚化效果。传统方案模拟背景虚化主要是靠立体视觉,而谷歌提出的方案,不仅依靠两种立体视觉方案(Pixel 4手机的双摄与双像素技术),而且为加强虚化可靠性,对画面拍摄对象做语义分割:谷歌打造了一台五颗摄像头的设备,拍摄大量场景,收集足够的训练数据。利用Tensorflow训练一个卷积神经网络:首先分别单独处理双像素与双摄的输入数据,中间有编码器将输入信息编码为IR(中间层),随后两部分信息经过另一个编码器,完成最终的对象深度计算(图3)。这里的编码器本身就是一种神经网络。

今年4月,联发科的研究人员发表了一篇题为Learning Camera-Aware Noise Models的论文,提出对图像传感器噪声进行建模的方法,通过“一种数据驱动的方法,从真实环境噪声中去学习噪声模型。这种噪声模型与相机相关,不同的传感器有不同的噪声特点,它们都能被学习。”

这些例子都表明,越来越多不同层级的市场参与者都在投入图像的后处理。所以采用老型号CIS的谷歌Pixel手机,在很多成像项目对决中,与其他采用上亿像素CIS的手机相比,依然保持优势。外置一颗AI视觉芯片的方案,显然让谷歌更有发挥空间。

如今的手机已经开始广泛应用AI来做成像质量的加强,而且包括了取景、抑噪、自动白平衡这些传统环节的参与。就用户层面来看,AI芯片参与计算并不会有很强的感知。

当这些技术在成像领域变得越来越普遍时,过去的移动成像唯CIS中心论愈发失效。如今的终端厂商在火拼手机拍照时,比拼的重点已经向图像/视觉处理与计算偏移。毕竟传统光学技术发展的速度无法与与数字芯片相比。

现在很多人拿手机拍照去与全画幅相机比较,即便这样的对比没有任何实际意义,但它也能体现手机的图像/视觉处理计算能力,很大程度弥补了移动CIS的短板。实际上,这也是两种方案、两个时代的比拼。

本文为《国际电子商情》2020年12月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击

文章来源于:国际电子商情    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。