欢迎来到辽宁讯飞公司官网, 今天是

最新资讯NEWS

当前位置: 首页 > 信息动态  > 最新资讯

语音识别的原理

来源:www.lnxunfei.com    |   发布时间:2020年09月16日

早在上世纪五六十年代,就开始研究计算机语音识别系统。
进入80年代,研究思路上发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路,并提出了将神经网络技术引入语音识别问题的技术思路讯飞转写机带你了解语音识别的原理
讯飞转写机
进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。

识别方法

语音识别方法主要是模式匹配法。

在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。

在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度更高者作为识别结果输出。

主要问题

语音识别受众多因素影响,包括语言单位、语义理解规则、说话方式、语音模糊、音调音速、环境噪声等,因此识别困难。

前端处理

前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。

常用的前端处理有端点检测和语音增强。

端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。

语音增强的主要任务就是消除环境噪声对语音的影响。

声学特征

LPC

线性预测分析从人的发声机理入手,认为系统的传递函数符合全极点数字滤波器的形式,从而某时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差更小LMS,即可得到线性预测系数LPC。计算上的快速有效保证了这一声学特征的广泛使用。

CEP

利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。

Mel

不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。

MFCC

首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,之后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。

声学模型和语言模型

语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。

搜索

连续语音识别中的搜索,就是采用某种算法,从模板库中寻找一个与输入语音的特征矢量相似度更高的词模型序列,以描述输入语音信号,从而得到词解码序列。

系统实现

语音识别系统需要选择识别基元。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。

  产品咨询

王经理 :15566002333

  技术支持

吕经理 :13898143825

邮箱:lnxfkjyxgs@163.com

地址:辽宁省沈阳市于洪区太湖街9号四楼