语音识别系统可以分为几类

发布时间: 2024-06-25

来源: 电子工程世界

语音芯片里语音识别系统被应用在更多需要代替人工服务或者识别指令的机器人中，实现更多的人机交互，在生活中带来更多的便利。语音识别系统的分类和结构跟otp语音芯片系统比起来也有所不同。

语音芯片识别系统的分类和结构

一、语音识别系统分类

语音系统的分类有多种方法，但最常见的是根据识别对象来看，它的识别任务大概就分为了三类：孤立词识别、关键词识别还有连续语音识别。

二、语音识别系统的结构

1. 语音识别系统的结构包括语音信号的采样和预处理部分、特征参数提取部分、语音识别核心部分以及语音识别后处理部分。

2. 所谓语音识别的过程，其实就是模式识别匹配，首先要根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模式。

3. 在识别的过程中要根据语音识别的整体模型，将输入的语音信号的特征与已经存在的语音模式进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入的语音相匹配的模式。

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，(迅捷ocr文字识别软件)其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

主要分类

根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别(isolated word recognition)，关键词识别(或称关键词检出，keyword spotting)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。

根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。

另外，根据语音设备和通道，可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。

识别方法

语音识别方法主要是模式匹配法。在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库。在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

存在问题

1、口音和噪声

语音识别中最明显的一个缺陷就是对口音和背景噪声的处理。

2、语义错误

通常语音识别系统的实际目标并不是误字率。我们更关心的是语义错误率，就是被误解的那部分话语。

3、单通道和多人会话

一个好的会话语音识别器必须能够根据谁在说话对音频进行划分，还应该能弄清重叠的会话(声源分离)。

4、其他领域变化

如：来自声环境变化的混响、硬件造成的伪影、音频的编解码器和压缩伪影、采样率的变化、会话者的年龄不同。

5、上下文相关联判断识别

人类聊天容易基于上下文做判断。机器目前很难做到。

和自然语言识别的区别

语音识别是自然语言识别的一个方向。

广义的“自然语言处理”包含了“语音”，或者说“语音”也是“自然语言”的一种。狭义的“自然语言处理”是指处理及理解文本，简单的理解就是：语音识别的结果成了自然语言处理的原材料来源之一，自然语言处理的结果又成了语音生成的原材料。

它是区别指令式语音而命名，其基本原理都是一致。自然语音识别亮点是自然语言理解功能，即用户可以按照个人的语言习惯，用自己惯用的语气、惯用的词，将需要被识别的语音任务说出来即可。自然语音识别与指令式语音识别主要区别是词库大小及处理方式，指令语音所有处理都是本地进行，自然语音识别目前基本都是采用云处理方式，这样其语音库及处理能力是指令语音无法比拟的。

语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本，性能，响应时间，计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数，尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时，尽量也包含说话人的个人信息。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。从目前使用的情况来看，梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，具有更好的鲁棒性(Robustness)。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

文章来源于: 电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。