欢迎来到辽宁讯飞公司官网, 今天是

转写机资讯NEWS

当前位置: 首页 > 信息动态  > 转写机资讯

讯飞语音识别基本原理都有哪些?

来源:www.lnxunfei.com    |   发布时间:2020年07月13日

  一个完整的语音识别系统通常包括信号处理与特征提取、声学模型、语言模型和解码搜索四个模块:

  在采集声音的过程中,由于环境和硬件设备等因素的影响,我们很难获取一段高保真、无噪声的语音,所以通常情况下,一个语音识别系统首先要做的是对输入的语音信号进行预处理。
讯飞语音识别
  信号预处理工作主要包含静音切除和音频的分帧。静音切除也叫语音激活检测(Voice Activity Detection,VAD),其原理是将音频信号中的长时间静音片段进行提取、识别和消除,并将截取出的有效语音片段进行后续处理,从而降低静音片段带来的干扰;音频的分帧是把声音分割成一个个的小段,每一段我们称之为一帧。一般来说,经过分帧后,相邻两帧之间是有重合的。

音频的分帧
  Tips:单帧的长度为25ms,相邻两帧之间有15ms的重合,我们称为以帧长25ms、帧移10ms分帧。
  除此之外,还有很多其他的音频处理技术,感兴趣的读者可以查阅相关的音频信号处理方面的资料,这里不做过多讲述。

  信号处理完之后就是语言信号的特征提取工作,即把音频信号转换成一个个的特征向量,每个特征向量都是用来量化某个特定的声学特征。像这样从音频信号中提取出特征向量的过程就是语音特征提取。

  在传统语音识别中,人们在对语音信号进行特征提取时通常使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients , MFCCs)特征。

  产品咨询

王经理 :15566002333

  技术支持

吕经理 :13898143825

邮箱:lnxfkjyxgs@163.com

地址:辽宁省沈阳市于洪区太湖街9号四楼