欢迎来到辽宁讯飞公司官网, 今天是

最新资讯NEWS

当前位置: 首页 > 信息动态  > 最新资讯

何为语音识别?

来源:www.lnxunfei.com    |   发布时间:2021年12月31日

语音识别(Automatic Speech Recognition,ASR):通俗地讲语音识别就是将人类的声音信号转化为文字或者指令的过程 。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。 语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。

其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音 的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。

特征提取和选择是构建系统的关键,对识别效果极为重要。由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗, 实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱 系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之 一。声学建模涉及建模单元选取、模型状态聚类、模型 参数估计等很多方面。在目前的 LVCSR 系统中,普遍 采用上下文相关的模型作为基本建模单元,以刻画连续 语音的协同发音现象。在考虑了语境的影响后,声学模 型的数量急剧增加,LVCSR 系统通常采用状态聚类的 方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训 练语音的参考模式库。 搜索是空间当中,按照一定的优化准则, 寻找序列的过程。搜索的本质是问题求解,广泛 应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学 知识、词典知识、语言模型知识等),在状态(从高层至底 层依次为词、声学模型、HMM 状态)空间中找到状态序列。

词序列是对输入的语音信号在一定 准则下的一个描述。在识别阶段,将输入语音的特 征矢量参数同训练得到的参考模板库中的模式进行相 似性度量比较,将相似度模式所属的类别作为识 别中间候选结果输出。为了提高识别的正确率,在后处 理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度 量得到识别结果的可靠程度等。通过增加约束,得到更可靠的识别结果。

语音识别的技术有哪些?
语音识别技术 = 早期基于信号处理和模式识别 + 机器学习 + 深度学习 + 数值分析+ 高性能计算 + 自然语言处理

语音识别技术的发展可以说是有一定的历史背景,上世纪80年代,语音识别研究的重点已经开始逐渐转向大词汇量、非特定人连续语音识别。到了90年代以后,语音识别并没有什么重大突破,直到大数据与深度神经网络时代的到来,语音识别技术才取得了突飞猛进的进展。

语音识别技术的发展
语音识别技术起始于 20 世纪 50 年代。这一时期, 语音识别的研究主要集中在对元音、辅音、数字以及孤 立词的识别。

20世纪 60年代,语音识别研究取得实质性进展。线 性预测分析和动态规划的提出较好地解决了语音信号模 型的产生和语音信号不等长两个问题,并通过语音信号 的线性预测编码,有效地解决了语音信号的特征提取。

20 世纪 70 年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warp⁃ ing,DTW)技术基本成熟,特别提出了矢量量化(Vec⁃ tor Quantization,VQ)和隐马尔可夫模型(Hidden Mar⁃ kov Model,HMM)理论 。

20 世纪 80 年代,语音识别任务开始从孤立词、连接 词的识别转向大词汇量、非特定人、连续语音的识别,识 别算法也从传统的基于标准模板匹配的方法转向基于 统计模型的方法。在声学模型方面,由于 HMM 能够很 好的描述语音时变性和平稳性,开始被广泛应用于大词 汇量连续语音识别(Large Vocabulary Continous Speech Recognition,LVCSR)的声学建模;在语言模型方面, 以 N元文法为代表的统计语言模型开始广泛应用于语 音识别系统 。在这一阶段,基于 HMM/VQ、HMM/高斯 混合模型、HMM/人工神经网络的语音建模方法开始广 泛应用于 LVCSR系统,语音识别技术取得新突破。 20 世纪 90 年代以后,伴随着语音识别系统走向实 用化,语音识别在细化模型的设计、参数提取和优化、系 统的自适应方面取得较大进展 。同时,人们更多地关 注话者自适应、听觉模型、快速搜索识别算法以及进一 步的语言模型的研究等课题 。此外,语音识别技术开 始与其他领域相关技术进行结合,以提高识别率,便于实现语音识别技术的产品化。


  产品咨询

王经理 :15566002333

  技术支持

吕经理 :13898143825

邮箱:lnxfkjyxgs@163.com

地址:辽宁省沈阳市于洪区太湖街9号四楼