人们对生成式人工智能 (GenAI) 的兴趣激增所造成的最大影响之一是,人们越来越意识到迫切需要更轻松地访问基于关键技术的工具。允许简单的语言输入来驱动数据的发现和分析或应用程序和设备的操作可以说是像 ChatGPT 这样的基础模型和应用程序正在实现的革命中最重要的部分。
虽然目前ChatGPU都集中在文本上,但下一个明显的步骤是转向语音输入,这一过程已经开始。 例如,OpenAI 的 Whisper 和 Google 的 Chirp 等工具将允许我们简单地与应用程序和设备直接对话,并执行操作。
当然,有些人会说,多年来我们已经以语音输入实现数字助理。 从苹果的 Siri 到亚马逊的 Alexa 和谷歌的 Assistant,许多人已经习惯了使用语音与信息和应用程序交互的概念。
但正如大型语言模型 (LLM) 和其他 GenAI 工具已经彻底改变了“传统”基于人工智能的分析和其他应用程序的运行方式一样,下一代 GenAI 驱动的语音助手也必将彻底重新设定我们对基于语音的互动期望。
拥有真正强大的基于语音的交互将极大改变我们思考和使用计算设备、应用程序和数据的方式。
为了使这个梦想成为现实,需要将几种不同的关键技术开发结合起来。首先,基于语音的交互工具需要进行现代化改造,并使用最新一代 GenAI 基础模型进行训练。 同样重要但鲜为人知的是,针对基于音频接口的独特要求进行优化的半导体芯片也需要不断发展。
在芯片和IP开发的早期,音频半导体面临着始终开启、始终倾听并始终准备在适当的触发词(或声音)时做出响应的挑战性任务。 他们还必须能够区分单词,理解它们的含义和上下文,并应对不同口音、不同语言和其他音频噪音的挑战,这些噪音通常会影响我们的环境。
Cadence 等公司及其 Tensilica IP 多年来一直致力于应对这些挑战以及更多挑战。 该公司的一些早期工作支持语音触发/单词唤醒、自动语音识别 (ASR) 和语音 ID 等功能。 现在,Cadence 正在开发更先进的解决方案,以满足基于人工智能的新型语音应用的更苛刻要求,同时保持该类别一直以来的极低功耗。
满足这些需求的最佳方法之一是通过称为 DSP 或数字信号处理器的芯片架构。 DSP 经过优化,可处理音频,以实现噪声消除、均衡、语音识别等功能,并且能够以节能的方式完成这些任务。
Cadence 多年来一直在增强指令集架构 (ISA) 并开发软件库和 AI 工具流程,以有效映射神经网络以在其音频 DSP IP 设计上运行。 例如,该公司当前的 Tensilica HiFi DSP 是智能扬声器系统、现代汽车信息娱乐系统等的关键部分。 该公司的 NNE100 IP 进一步发挥了这些功能,可用于高级计算机视觉、驾驶员辅助和其他应用。
大多数包含 Tensilica IP 的设计都是更大的 SoC(片上系统)架构的一部分,该架构包含多个组件,包括 CPU 等。 Tensilica 组件充当音频加速器,可以帮助从 CPU 卸载某些任务和工作负载,以便设备能够更高效地运行并延长电池寿命。 随着基于音频的应用在设备中变得越来越重要和要求越来越高,提高效率和性能的需求变得至关重要。
这就是为什么设备供应商和芯片提供商常常如此痴迷于称为 PPA 的指标,即给定区域的功耗和性能。 在指定尺寸的芯片设计中,TOPS越高越好。 但除了原始 TOPS 之外,考虑设计的整体效率也很重要,特别是对于电池供电的设备。
如上所述,实现突破性语音应用的关键是通过先进软件和芯片的结合。 其中一个关键部分是提供允许软件开发人员可能不了解或不了解 DSP 和其他音频芯片架构的复杂性,无法充分利用其功能。 这些类型的桥接工具让开发人员能够利用当今流行的人工智能软件框架,包括 PyTorch、TensorFlow 等,并让他们在这些框架中构建的应用程序在以音频为中心的硬件上无缝运行。 Cadence 的 Tensilica 也在这样做,提供软件工具来提供运行所需的关键转换层。
即使有了这些能力,技术进化的步伐仍在继续,因此我们有理由期待所有这些领域的进步。 例如,Tensilica 目前的产品都是在 GenAI 爆发之前构建的,虽然它们可以很好地运行许多音频应用程序,但专门针对基于 GenAI 的音频模型进行优化的新架构似乎是明智的一步。 下一代架构可以支持基于交互式语音的用户界面进行查询和响应(这在现有设计中是不可能或不实用的),对于推动零售、医疗保健和服务机器人助理等应用程序的发展至关重要。
与我们的设备和应用程序进行基于语音的交互的总体机会绝对是巨大的。 真正的智能机器和软件的概念允许普通人以直观的方式与它们交互,直到最近才出现在科幻小说领域。 然而,随着我们开始看到的进步类型,很明显,音频驱动的操作和请求将成为我们近期未来的重要组成部分。