字节跳动加入AI耳机大战，意味着什么？

发布时间: 2024-10-29

来源: 国际电子商情

从今年2月到10月，多款AI智能体耳机开启上市节奏。代表性产品包括更强调实时翻译功能的iKKO ActiveBuds、讯飞会议耳机iFLYBUDS Nano、时空壶W4 Pro同声传译耳机；可以提供个性化运动指导的Cleer ARC 3；接入自研大模型AzeroGPT的声智科技耳夹式耳机、以及接入豆包大模型的字节跳动Ola Friend耳机。

相关数据显示，2024年8月，中国在线电商平台的AI耳机虽然在耳机/耳麦总销售额中占比仅为1.4%，但与去年同期相比，销量增长763.3%，销售额翻了近14.5倍，十分惊人。预测2024全年，中国AI耳机的电商市场销量有望突破20万副，同比增长预计可达488.7%。

AI耳机爆发的原动力

AI智能耳机的爆发式增长，首先要归功于开放式真无线耳机的持续放量增长。国际数据公司(IDC)最新发布的《中国无线耳机市场月度跟踪报告》显示，2024年1-8月中国蓝牙耳机市场累计出货量达到7,338万台，同比增长19.5%。其中，真无线耳机市场出货4,602万台，同比增长4.2%；开放式耳机市场出货1,636万台，同比增长271.5%；颈戴耳机市场出货670万台，同比下滑27.5%，头戴耳机市场出货429万台，同比增长19.6%。

图源：国际数据公司(IDC)

该机构预测，未来蓝牙耳机市场各细分品类出货量依旧维持不同趋势，真无线仍会保持市场主流出货品类的地位，开放式在2024年的高速增长后将进入平稳发展阶段市场，以下三点将成为维持增长的新动能，具体如下：

•兼顾舒适和降噪

目前真无线耳机和开放式耳机更多的是在使用场景上形成相互补充，因真无线耳机主动降噪功能突出，开放式耳机佩戴舒适度更高。未来随着技术的成熟兼顾舒适和降噪的产品或将推动市场增长，如开放式+主动降噪，及半入耳式真无线+主动降噪。

•营销活动刺激消费需求

厂商的营销活动有所升级，除了常规的明星代言外，厂商亦通过在产品中加入明星语音包等方式，利用与明星的深度绑定刺激粉丝消费。

•AI大模型提升产品溢价能力

目前已有厂商在真无线，开放式等多种耳机品类中加入语音交互，实时翻译等AI相关的功能。随着技术的不断完善，搭载AI大模型的智能耳机有望提高产品的溢价能力，推动蓝牙耳机中高端市场的发展。

AI耳机 VS 传统耳机

对于耳机这个成熟品类来说，导入AI的驱动因素，既有技术进步带来的新功能，如声音合成和降噪处理；还有市场需求的增长，尤其是在音乐、娱乐、健身和远程办公等场景下对个性化和智能化耳机的追求。此外，传统耳机市场品牌竞争加剧，也为新技术导入提供了机会，通过支持多样化的生成式AI模型、软硬件的有效融合，有望提供更丰富的用户体验，促进AI耳机的成长。

通过AI智能化提升音频质量显然是选项之一。CEVA音频业务部门业务发展总监Elia Shenberger此前就曾撰文指出，在可听戴设备中，音频质量是一个重要的差异化特征，特别是在嘈杂环境中，设备的组件质量往往只能在一定程度上抵挡干扰。这时，AI和软件就派上用场了。例如，更先进的自适应降噪解决方案就可以利用AI分析环境噪声，并实时调整降噪参数。

同样，在使用耳机或耳塞通话时，将语音与背景噪声隔离开来也至关重要。与其他音频相比，语音是一种可分辨的信号，但需要依靠AI来提取这一信号并过滤掉背景噪声。这项能力在助听器中尤为重要，因为听力受损者在稍微的背景噪音中，也可能很快就无法跟上正在进行的对话。

可以根据用户的偏好和使用习惯进行个性化调整，以及能够提供更加自然和直观的交互体验，应该是另一项重要区别。以Ola Friend为例，作为一款开放式耳机，其单耳重量6.6克，可接入豆包大模型，并与豆包App深度结合，售价1199元。用户戴上耳机后，无需打开手机，只需喊出关键词“豆包，豆包”，便能唤起豆包进行对话，后者能够在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助。

字节跳动Ola Friend耳机图源：Ola Friend官网

但值得注意的是，“Ola Friend 谨慎控制了预期，没有盲目扩展功能。”至少在外观设计方面，看起来跟上一代产品区别不是很大，一度导致不少消费者质疑字节是不是在用之前的TWS耳机冒充。

这可能是一种AI硬件的设计趋势，即降低用户使用AI大模型的门槛，让AI触及更多群体，让他们在获得超预期体验后不再将其视作普通耳机，而是一个有温度的AI助理，或者至少是个“助手”，并以此收获更多情绪价值。

当然，将健康监测功能集成进可穿戴设备中也是看点，例如部分AI耳机就集成了心率监测和压力追踪功能，为用户提供健康相关的数据和建议。推而广之，AI手表、AI眼镜等AI+硬件产品模式，都需要AI技术使其成为用户与人工智能交互的第一个入口。

核心芯片面临哪些挑战？

消费类产品的共性之一就是消费者既希望整体设备性能强大，体积小巧，又希望有超强的续航能力和价格。那么无论是对TWS耳机还是AI耳机来说，能够同时处理数字信号处理器(DSP)和AI功能的处理器、兼容最新Bluetooth蓝牙标准和编解码器的流媒体音频、基于惯性测量单元(IMU)的头部跟踪与音频结合技术，都是必不可少的，只有这样才能高效融合来自多个传感器的输入，处理高质量音乐流、语音和环境噪音。

目前国内部分芯片厂商已推出相关方案，例如恒玄科技推出的新一代6nm智能可穿戴芯片 BES2800，集成了Wi-Fi和蓝牙模块，支持本地传感网络算法处理，能够为TWS耳机、智能手表、智能眼镜、智能助听器等产品提供算力和高品质的无缝连接体验。

Cleer ARC 3 音弧所采用的炬芯科技ATS3085系列智能穿戴芯片，具有高帧率、GPU硬件加速和屏显驱动等特性，通过驱动充电仓的高清显示屏，实现了高帧率、GPU硬件加速和屏显驱动等特性，助力呈现清晰细腻画面和流畅操控。

时擎科技的端侧智能芯片AT820支持FP16/FP32浮点运算，30GOPS高能效比AI算力，以及多麦处理，回声消除，智能降噪等算法，并针对双麦克的场景进行了专门的软硬件优化，可以应用于智能语音交互、语音前端处理、音效处理、智能控制等场景。

炬芯科技股份有限公司董事长兼CEO周正宇博士曾指出，AI时代，对于音频穿戴或者音频便携式产品而言，提升AI体验的挑战和机遇，是如何在每毫瓦功耗上打造尽可能大的算力，而不是简单追求大算力绝对值。

但算力和功耗两者是矛盾的统一体，大算力必然需要更大的功耗，功耗的增大又成为算力提升的障碍。因此，“实现单位mW下算力的数量级提升不能光是期待和依赖先进工艺，必须在计算架构和芯片电路实现上进行创新。”

除此之外，要想将所有AI功能压缩到一个非常小、超低功耗的空间中，同时保持低延迟，以提供高质量的音频体验，还需要一个嵌入式的NPU(神经网络处理单元)核心，能够处理独立DSP和NPU的所有元素、能够在各个应用中严格管理功耗、支持当今先进的机器学习数据类型和运算符。

同时，为了最大限度地缩短产品开发时间，开发人员还应寻求一个强大的模型库，这个库里包含预先训练好的和经过优化的机器学习模型，涵盖可听戴设备应用中重要的语音和传感用例，以及一系列优化过的软件。

结语

1991年，马克·维瑟(Mark Weiser)在《Scientific American》上发表⽂章“21世纪的计算机”(The Computer for the 21st Century)，正式提出了普适计算(Ubiquitous computing)的概念。这是一个强调和环境融为一体的计算概念，而计算机本身则从人们的视线里消失。在普适计算的模式下，人们能够在任何时间、任何地点、以任何方式进行信息的获取与处理。

所以，未来的AI+智能硬件，无论是耳机、手表、还是AR/VR、戒指项链，都会遵循这样的核心价值延伸，其核心竞争力要从“硬件比拼”上升到“人机交互”，再上升到“人与AI的互动”，社会化属性会更强。