欢迎来到辽宁讯飞公司官网, 今天是

最新资讯NEWS

当前位置: 首页 > 信息动态  > 最新资讯

语音识别技术的发展

来源:www.lnxunfei.com    |   发布时间:2020年07月27日

语音识别技术的研究早开始于20世纪50年代, 1952 年贝尔实验室研发出了 10 个孤立数字的识别系统。从 20 世纪 60 年代开始,美国卡耐基梅隆大学的 Reddy 等开展了连续语音识别的研究,但是这段时间发展很缓慢。1969年贝尔实验室的 Pierce J 甚至在一封公 开 信 中将语音识别比作近几年不可能实现的事情。

20世纪80年代开始,以隐马尔可夫模型(hidden Markov model,HMM)方法为代表的基于统计模型方法逐渐在语音识别研究中占据了主 导地位。HMM模型能够很好地描述语音信号的短时平稳特性,并且将声学、语言学、句法等知识集成到统一框架中。此后,HMM的研究和应用逐渐成为了主流。例如,第 一个“非特定人连续语音识别系统”是当时还在卡耐基梅隆大学读书的李开复研发的SPHINX系统,其核心框架就是GMM-HMM框架,其中GMM(Gaussian mixture model,高斯混合模型)用来对语音的观察概率进行建模,HMM则对语音的时序进行建模。
语音识别
20世纪80年代后期,深度神经网络(deep neural network,DNN)的前身——人工神经网络(artificial neural network, ANN)也成为了语音识别研究的一个方向。但这种浅层神经网络在语音识别任务上的效果一般,表现并不如GMM-HMM 模型。

20世纪90年代开始,语音识别掀起了第 一次研究和产业应用的小高 潮,主要得益于基于 GMM-HMM 声学模型的区分性训练准则和模型自适应方法的提出。这时期剑桥发布的HTK开源工具包大幅度降低了语音识别研究的门槛。此后将近10年的时间里,语音识别的研究进展一直比较有限,基于GMM-HMM 框架的语音识别系统整体效果还远远达不到实用化水平,语音识别的研究和应用陷入了瓶颈。

2006 年 Hinton]提出使用受限波尔兹曼机(restricted Boltzmann machine,RBM)对神经网络的节点做初始化,即深度置信网络(deep belief network,DBN)。DBN解决了深度神经网络训练过程中容易陷入局部优的问题,自此深度学习的大潮正式拉开。

2009 年,Hinton 和他的学生Mohamed D将 DBN 应用在语音识别声学建模中,并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。

2011 年 DNN 在大词汇量连续语音识别上获得成功,语音识别效果取得了近10年来大的突破。从此,基于深度神经网络的建模方式正式取代GMM-HMM,成为主流的语音识别建模方式。

  产品咨询

王经理 :15566002333

  技术支持

吕经理 :13898143825

邮箱:lnxfkjyxgs@163.com

地址:辽宁省沈阳市于洪区太湖街9号四楼