音频DSP和AI将迅速兴起

发布时间:2023-09-13  

人们对生成式人工智能 (GenAI) 的兴趣激增所造成的最大影响之一是,人们越来越意识到迫切需要更轻松地访问基于关键技术的工具。允许简单的语言输入来驱动数据的发现和分析或应用程序和设备的操作可以说是像 ChatGPT 这样的基础模型和应用程序正在实现的革命中最重要的部分。


虽然目前ChatGPU都集中在文本上,但下一个明显的步骤是转向语音输入,这一过程已经开始。 例如,OpenAI 的 Whisper 和 Google 的 Chirp 等工具将允许我们简单地与应用程序和设备直接对话,并执行操作。


当然,有些人会说,多年来我们已经以语音输入实现数字助理。 从苹果的 Siri 到亚马逊的 Alexa 和谷歌的 Assistant,许多人已经习惯了使用语音与信息和应用程序交互的概念。


但正如大型语言模型 (LLM) 和其他 GenAI 工具已经彻底改变了“传统”基于人工智能的分析和其他应用程序的运行方式一样,下一代 GenAI 驱动的语音助手也必将彻底重新设定我们对基于语音的互动期望。


拥有真正强大的基于语音的交互将极大改变我们思考和使用计算设备、应用程序和数据的方式。


为了使这个梦想成为现实,需要将几种不同的关键技术开发结合起来。首先,基于语音的交互工具需要进行现代化改造,并使用最新一代 GenAI 基础模型进行训练。 同样重要但鲜为人知的是,针对基于音频接口的独特要求进行优化的半导体芯片也需要不断发展。


在芯片和IP开发的早期,音频半导体面临着始终开启、始终倾听并始终准备在适当的触发词(或声音)时做出响应的挑战性任务。 他们还必须能够区分单词,理解它们的含义和上下文,并应对不同口音、不同语言和其他音频噪音的挑战,这些噪音通常会影响我们的环境。


Cadence 等公司及其 Tensilica IP 多年来一直致力于应对这些挑战以及更多挑战。 该公司的一些早期工作支持语音触发/单词唤醒、自动语音识别 (ASR) 和语音 ID 等功能。 现在,Cadence 正在开发更先进的解决方案,以满足基于人工智能的新型语音应用的更苛刻要求,同时保持该类别一直以来的极低功耗。


满足这些需求的最佳方法之一是通过称为 DSP 或数字信号处理器的芯片架构。 DSP 经过优化,可处理音频,以实现噪声消除、均衡、语音识别等功能,并且能够以节能的方式完成这些任务。


Cadence 多年来一直在增强指令集架构 (ISA) 并开发软件库和 AI 工具流程,以有效映射神经网络以在其音频 DSP IP 设计上运行。 例如,该公司当前的 Tensilica HiFi DSP 是智能扬声器系统、现代汽车信息娱乐系统等的关键部分。 该公司的 NNE100 IP 进一步发挥了这些功能,可用于高级计算机视觉、驾驶员辅助和其他应用。


大多数包含 Tensilica IP 的设计都是更大的 SoC(片上系统)架构的一部分,该架构包含多个组件,包括 CPU 等。 Tensilica 组件充当音频加速器,可以帮助从 CPU 卸载某些任务和工作负载,以便设备能够更高效地运行并延长电池寿命。 随着基于音频的应用在设备中变得越来越重要和要求越来越高,提高效率和性能的需求变得至关重要。


这就是为什么设备供应商和芯片提供商常常如此痴迷于称为 PPA 的指标,即给定区域的功耗和性能。 在指定尺寸的芯片设计中,TOPS越高越好。 但除了原始 TOPS 之外,考虑设计的整体效率也很重要,特别是对于电池供电的设备。


如上所述,实现突破性语音应用的关键是通过先进软件和芯片的结合。 其中一个关键部分是提供允许软件开发人员可能不了解或不了解 DSP 和其他音频芯片架构的复杂性,无法充分利用其功能。 这些类型的桥接工具让开发人员能够利用当今流行的人工智能软件框架,包括 PyTorch、TensorFlow 等,并让他们在这些框架中构建的应用程序在以音频为中心的硬件上无缝运行。 Cadence 的 Tensilica 也在这样做,提供软件工具来提供运行所需的关键转换层。


即使有了这些能力,技术进化的步伐仍在继续,因此我们有理由期待所有这些领域的进步。 例如,Tensilica 目前的产品都是在 GenAI 爆发之前构建的,虽然它们可以很好地运行许多音频应用程序,但专门针对基于 GenAI 的音频模型进行优化的新架构似乎是明智的一步。 下一代架构可以支持基于交互式语音的用户界面进行查询和响应(这在现有设计中是不可能或不实用的),对于推动零售、医疗保健和服务机器人助理等应用程序的发展至关重要。 


与我们的设备和应用程序进行基于语音的交互的总体机会绝对是巨大的。 真正的智能机器和软件的概念允许普通人以直观的方式与它们交互,直到最近才出现在科幻小说领域。 然而,随着我们开始看到的进步类型,很明显,音频驱动的操作和请求将成为我们近期未来的重要组成部分。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    并不是新的技术,我们手机,基本都有2颗麦(一个在充电口旁边,另一个在相机旁边),默默地在帮助我们进行通话降噪好多年(所以,有时用耳机打电话怕讲不清楚时,我们习惯关掉耳机,直接用手机,就主要是这个原因);上行......
    解析什么是白噪和粉噪?耳机煲机用白噪好还是粉噪;对于许多烧友来说,在煲机方面应该也是有一定的了解,在购买新耳机后都会播放一些常用的煲机音乐来煲机,也有会用煲机软件的朋友来进行有效煲机。但对......
    部产品营销群总监刘逸芃表示,“面向音频、语音和AI处理高度优化的HiFi 5 DSP可提供高性能运算,是声学回声消除、多麦克风环境降噪、关键词检测等前端处理以及音频/语音编码和后端处理应用的理想选择,进一......
    线蓝牙耳机。 中科蓝讯BT8892B是一颗高度集成的降噪蓝牙SoC,该芯片采用32bit RISC-V处理器,DSP工作最高频率可达125MHz。支持蓝牙5.0协议及前馈、后馈、混合降噪三种降噪......
    中国研发的AI处理器IP。加AI专核在行业的同档竞品中似乎还是比较罕见的。 Arm中国此前有提到过AIPU相比DSP的优势,加上现在更多的AI专核也有考虑支持可编程性的问题,以适应不同算法。Arm......
    芯片面临哪些挑战? 消费类产品的共性之一就是消费者既希望整体设备性能强大,体积小巧,又希望有超强的续航能力和价格。那么无论是对TWS耳机还是AI耳机来说,能够同时处理数字信号处理器(DSP)和AI功能......
    大联大诠鼎集团推出基于Qualcomm产品的混合式主动降噪TWS耳机方案;2023年4月13日,致力于亚太地区市场的领先半导体元器件分销商---大联大控股宣布,其旗......
    于QCC3072的性能,本方案具有出色的主动降噪功能,这使得用户即使在充满挑战的环境中,也能提供始终如一的高质量音频效果。并且方案具有的长久续航能力,也能让用户无论是在长途旅行还是......
    Technologies推出了最新的AI+DSP音频创新技术,提供基于神经网络的超低延时自适应主动降噪(ANC),再比如,最近日本新创AI公司Qosmo旗下设立了一家新公司Neutone让你可以在 Plugin......
    欧胜微电子推出其下一代带有语音处理器DSP的音频中枢产品;欧胜微电子有限公司日前宣布:推出其下一代带有语音处理器DSP的音频中枢产品(Audio Hub),它可......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>