从计算影像到计算音频，OPPO造芯的野心还有多大

随着5G互联网的高度普及，各个维度的数据量激增，AI开始全面覆盖生活各个场景，从图片到语音，从影像到语义。AI带来的便捷化和个性化越来越受到欢迎，AI无处不在的背后，支撑的正是芯片带来的庞大算力，而随着芯片的功耗不断降低，这些AI芯片已经不仅限于云端的部署，而是进入到了更多的边缘侧。

在这一趋势下，越来越多的系统公司开始尝试涉足定制甚至自行设计芯片，从而将应用场景与基础芯片相耦合。

OPPO在这方面做出了大胆尝试，2021年的马里亚纳X是一个最好的诠释，这颗独立影像专用NPU，成功应用于OPPO的Find X5、Reno8、Reno9等产品中，为消费者带来计算影像的新体验。

今年，OPPO的惊喜来自声音，在声学领域，OPPO推出了马里亚纳Y，希望再一次复制马里亚纳X的成功，这颗OPPO自行研发的蓝牙音频SoC，被寄予了厚望，旨在引领音频计算的新潮流。

如何超越AirPods Pro?

为什么OPPO这次会将重点放在声学市场？最直接的原因就是声学市场正在迅猛发展。根据Canalys的最新统计，2022年第三季度，全球个人智能耳机市场中，TWS 是唯一显示出增长的类别。而在TWS市场常年位居第一的苹果，很大程度上是由于其定制的芯片极大增强了用户体验。

严格意义上来说，苹果H1芯片与AirPods Pro广为流行的2019年，成为计算音频概念兴起之年。如今，计算音频开始迈入个性化的阶段。随着流媒体、播客以及在线会议等，关于声音的内容越来越多，TWS正在为消费者带来全天优质的音频体验。这些优质体验的背后包括了无损音频，空间音频，主动降噪等功能的不断改善。苹果也顺势推出H2芯片，以继续增强用户的音频体验。

如空间音频，传统上虚拟空间的渲染是基于一套预设模型，就像购买成衣西服，虽然精致，但细节处难免还会有不合身。而新一代的空间音频，可以根据用户个人的头型和耳廓形状，定制HRTF模型（Head Related Transfer Function，头部相关传递函数），获得最符合个人的听感，就像高级定制的西服，每一处细节都为用户的独特身材量身定制。

同时，包括AI技术、环境感知、自然语义处理等诸多先进技术融入计算音频领域，这些个性化的计算音频自然离不开底层芯片技术的创新。

再比如针对无损音频，Apple Music无损品质最高可达192kHz/24bit，QQ音乐，网易云等高解析音频可达96kHz/24bit。在这种数据要求下，需要最多9Mbps的传输速率，即便压缩一半体积，也需要4.5Mbps，因此目前的蓝牙很难满足如此高规格的传输速率，消费者只能被迫选择有线设备聆听无损音频。

马里亚纳Y是OPPO拥抱音频计算的第一步，拥有比肩苹果H2的性能，在这种高起点下，我们相信OPPO未来有可能生产出媲美AirPods Pro系列的TWS耳机。

解读马里亚纳Y：声学计算的基石

正如OPPO芯片产品高级总监姜波所说，OPPO自研芯片的目的并不是要替代供应链，而是要寻找用户价值，并以芯片为载体，体现计算的价值，体现出OPPO对用户价值的探索。“假设我们现在有了一些芯片供应商，OPPO自己做可以降低一半成本，但这绝不是我们做芯片的出发点。”他说道。

OPPO自研的蓝牙音频SoC——马里亚纳Y的三大特点，正是OPPO解决音频计算痛点的方案，更是用户价值探索的具体体现。

首先，为了更好的无损音频体验，解决目前蓝牙传输速率不足的核心问题，马里亚纳Y采用了自研的12Mbps超高速蓝牙，速度为标准蓝牙的四倍，能够覆盖目前最高规格的192kHz/24bit无损音频的超大数据量。

为了配合12Mbps的蓝牙，OPPO还开发了URLC（Ultra-Resolution Lossless Codec）高性能编解码技术。其支持最高192kHz/24bit的特性，使其可以与12Mbps蓝牙完美配合。此外，相较于其他最高60%压缩率的无损编解码方案来说，URLC的无损压缩率可达50%，可更好地节约传输带宽。

同时，URLC编解码支持80Kbps～10Mbps动态码率，这种灵活的调节模式，使蓝牙可以根据环境信号状态动态精准的调节编码率，从而兼顾了音质和传输。

马里亚纳Y除了URLC之外，还兼容包括蓝牙5.3、LE Audio的LC3编解码、LHDC、LDAC高清编解码，以及SBC和AAC传统编解码，从而使其灵活应对所有的蓝牙场景。

其次，为了增强计算音频的体验，马里亚纳Y集成了590 GOPS的NPU。基于这个NPU，OPPO不只可以实现更好的空间音频、主动降噪等表现，还在业内首创了端侧的声音分离技术。

目前，音频计算主要依赖DSP处理方式，这既包括音乐播放、EQ调整、编解码等，也包括空间音频、主动降噪等先进功能。

音频计算正在拥抱AI，比如谷歌在2022年人工智能年度活动上，公布了谷歌全新的音频生成框架AudioLM，Meta已提供的Acoustic Sythesis工具，通过AI的能力对不同视觉环境做出相应的声音反馈，从而提升环境/场景模拟的保真性和沉浸感。

随着音频计算的AI化，NPU比DSP具有更高的能效比，更高的算力，以及更灵活的架构和升级能力。马里亚纳Y的NPU为590 GOPS算力，DSP为25 GOPS算力，尽管这还是业界最高的音频DSP。超过20倍的算力提升，给未来的音频端侧应用增加了更多可能。

OPPO首创的端侧声音分离技术，正是利用了NPU强大算力。声音分离技术可以从一段完整的音频数据中，识别和分离人声或其他特定乐器的声音。目前最多可以分离生成四条独立的音轨——人声、鼓声、贝斯、其他。声音分离技术可以实现个性化的音频方案。比如可以实现自定义全景声，甚至是万能全景声。万能全景声是个极大增强用户体验的功能，很多过去制作的音乐理论上不支持“杜比全景声”等格式，而现在，马里亚纳Y可以在端侧实时将音轨分离并重新渲染，从而将任意普通音频，转化成立体声、环绕声或者全景声，形成极具沉浸感的听觉体验。

NPU和声音分离技术的应用还有很多可能，比如，利用声音分离技术，提取人声和噪音，实现更加纯净的通话降噪效果；又如，利用声音分离技术对老电视剧的人物对话进行增强；或者是利用这一技术实现更加随时随地的卡拉OK体验。

第三，则是马里亚纳Y率先采用了台积电的N6RF射频工艺，N6RF是台积电2021年推出的专为射频领域优化的先进工艺，将先进的 N6 逻辑制程的功耗、效能、面积优势带入到射频解决方案中。

尽管N6RF的主要定位放在了5G 与WiFi 6/6e等主力射频战场，但时至今日，采用N6RF的产品只有三款，分别为马里亚纳Y，苹果的H2以及苹果的GPS。

马里亚纳Y的意图究竟是什么？

“这颗芯片无论是投入成本，还是市场ROI，从商业角度上看都是非常不划算的。”姜波告诉媒体。在芯片设计领域拥有2000人规模的OPPO，其目标也不止影像或音频计算这些垂直市场。

从用户需求角度出发，从音频计算痛点思考，是马里亚纳Y诞生的根源。

马里亚纳Y是OPPO是第一次试水射频和连接技术。相比数字电路或者模拟电路而言，射频市场需要的经验与积累是最多的。在设计考量时也需要仔细权衡，挑战工艺极限或者设计创新性电路结构，这极大考验研发设计人员的经验积累；

另外，台积电的N6RF至今只有一年半的时间，虽然是先进制程的分水岭，但成熟应用还不是很多，客观上也没有经过市场的充分验证，足见OPPO团队在射频开发领域的实力不可小觑。

而且，考虑到未来N6RF的目标射频市场，以及未来射频与连接技术的多样化，OPPO的芯片也许会有更多的惊喜。

其次，这也是OPPO首次涉足SoC的开发。和马里亚纳X协处理不同，马里亚纳Y是OPPO首个SoC芯片解决方案，完整地负责一个蓝牙音频设备的所有功能。这标志着OPPO首次打开了连接芯片设计的新领域，具备了蓝牙连接的软硬件全套能力，也意味着OPPO首次具备了计算+连接能力的蓝牙SoC平台设计能力。

以平常心迎接未来

正如姜波所述，OPPO团队始终保持着一颗循序渐进的平常心，在自研芯片的道路上尊重客观规律，隔绝外界的压力，不妄想弯道超车，坚信长期主义，做好了十年磨一剑的准备。

在万物计算，万物互联的时代，每个系统厂商都有掌握核心科技的理由和动力。作为行业领先的系统公司，OPPO从马里亚纳X的成功获得了市场认可，这也使其有信心推出马里亚纳Y。

透过一系列的产品，OPPO一方面提升了用户体验，另外则是通过一系列的尝试来打磨团队，增强定义及设计芯片的能力，逐步掌握从AI到连接等各式各样的技术。

从马里亚纳Y公布出来的芯片数据，我们有理由期待搭载该芯片的耳机，可以真正迎来音频计算的新时代。尽管OPPO对于未来的芯片规划闭口不提，我们更长远的期待或好奇是OPPO将如何继续挖掘市场空白，不断通过底层创新打造出自己的特色。