欢迎来到辽宁讯飞公司官网, 今天是

转写机资讯NEWS

当前位置: 首页 > 信息动态  > 转写机资讯

讯飞语音识别的这些干货,你知道哪些?

来源:www.lnxunfei.com    |   发布时间:2020年07月02日

  语言是人类最重要的交际工具,是我们进行沟通的主要媒介,而语音是语言的声学表现,让机器可以听懂人的语言并通过语音与人类进行交流是人工智能这门学科诞生第一天科学家就在努力追求的目标,也是人类一直以来的梦想。

  而这一研究涉及的最主要一项技术,就是语音识别讯飞转写机想让机器与人类之间进行“对话”,首先要让机器“听懂”人类在说什么,这就是语音识别技术,它可以看作是计算机的听觉系统。

  同人工智能经历了几次发展浪潮一样,语音识别技术也经历了几次大的技术变革,目前在我们日常生活中扮演着成熟角色的智能语音设备,离不开这一次又一次的技术变革。

什么是语音识别?

  从专业的角度讲,声音是以波的形式存在于介质中的,这种波在计算机中是以一种离散的时序数据来保存的,语音识别的目的就是将这样一段记录着各时间点声音强度的序列转换成一段文本序列或指令。

计算机中存储的声波信号
  而为了让机器能够“听懂”人话,一直以来科学家们做了很多努力,涉及到很多学科的融合,包括人工智能、声学、语言学、信号处理、仿生学等多个领域。

  当人们对着它呼喊“Radio Rex”,这只叫Rex的玩具狗就能从底座上跳起来,这比计算机的发明还要早20多年。

  在Radio Rex中,玩具狗Rex被固定在一个挡块上,挡块由弹簧控制,待机状态下弹簧被一块电磁铁阻止。当该电磁铁检测到包含500 Hz附近声能的声音模式(例如“Rex”中的元音“e”)时,声音触发器会中断流向电磁铁的电流,从而使弹簧将Rex推出房屋。

  目前世界上现存的Radio Rex已经非常少了,其中一个被Nuance的Dialog研发部副总裁Mike Cohen所拥有。根据他的描述,“Radio Rex是一段令人着迷的语音识别历史,但是其‘拒绝率’却很糟糕,不管它的主人多么热情地召唤,Rex还是倾向于固执地呆在自己的房屋中”。
语音识别
语音识别基本原理
  一个完整的语音识别系统通常包括信号处理与特征提取、声学模型、语言模型和解码搜索四个模块,如下图所示:

语音信号处理和特征提取
  在采集声音的过程中,由于环境和硬件设备等因素的影响,我们很难获取一段高保真、无噪声的语音,所以通常情况下,一个语音识别系统首先要做的是对输入的语音信号进行预处理。

  信号预处理工作主要包含静音切除和音频的分帧。静音切除也叫语音激活检测(Voice   Activity Detection,VAD),其原理是将音频信号中的长时间静音片段进行提取、识别和消除,并将截取出的有效语音片段进行后续处理,从而降低静音片段带来的干扰;音频的分帧是把声音分割成一个个的小段,每一段我们称之为一帧。一般来说,经过分帧后,相邻两帧之间是有重合的,就像下图所示。


音频的分帧
  Tips:单帧的长度为25ms,相邻两帧之间有15ms的重合,我们称为以帧长25ms、帧移10ms分帧。
  除此之外,还有很多其他的音频处理技术,感兴趣的读者可以查阅相关的音频信号处理方面的资料,这里不做过多讲述。

  信号处理完之后就是语言信号的特征提取工作,即把音频信号转换成一个个的特征向量,每个特征向量都是用来量化某个特定的声学特征。像这样从音频信号中提取出特征向量的过程就是语音特征提取。

  在传统语音识别中,人们在对语音信号进行特征提取时通常使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients , MFCCs)特征。

  MFCCs特征可以简单的理解为是对人耳生理特征的一种量化表示。它把每一帧音频变成一个向量,如果我们假设该向量是S维,音频的总帧数为T,那么整个音频信号经过转换后就变成了一个S行、T列的矩阵,我们称之为语音特征向量序列或者观察序列(如下图所示)。 


声音的MFCC特征
  Tips:每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。
在传统的语音识别中,MFCCs起到了非常重要的作用。但随着深度学习技术的介入和发展,人们开始探索通过深度神经网络模型直接学习一个滤波器来取代MFCCs滤波器组,这个技术在很多场景中已经趋于成熟。

声学模型
  在经过语音特征提取之后,我们需要一个模型,来将这些提取出来的特征和我们已有的声学符号(音素)进行匹配。这种模型我们称之为声学模型。

  在传统的语音识别系统中,声学模型通过统计建模的方式,把输入的语音特征向量序列X=(x1,x2,...xT)转化成词序列W=(w1,w2,...,wN)并输出,其中,最为著名的就是基于隐马尔可夫模型(HMM)的声学模型。

  在机器学习兴起之前,基于HMM的声学模型在语音识别中起到了非常重要的作用,并在很长一段时间里成为语音识别的主流。

  HMM可以模拟人说话的过程,可视作一个双重随机过程:一是利用有限状态数的马尔可夫链模拟语音信号统计特性的隐式随机过程,二是与马尔可夫链各状态相关联的观测序列的随机过程。

  产品咨询

王经理 :15566002333

  技术支持

吕经理 :13898143825

邮箱:lnxfkjyxgs@163.com

地址:辽宁省沈阳市于洪区太湖街9号四楼