欢迎来到辽宁讯飞公司官网, 今天是

最新资讯NEWS

当前位置: 首页 > 信息动态  > 最新资讯

什么是自动语音识别?

来源:www.lnxunfei.com    |   发布时间:2021年12月25日

自动语音识别(ASR)是一种将口语转换为文本的过程。该技术正在不断应用于即时通讯应用程序、搜索引擎、车载系统和家庭自动化中。

ASR 系统:它们如何运作?
因此,从基础层面来看,我们知道自动语音识别看起来如下:

音频数据输入,文本数据输出。
但是,从输入到输出,音频数据需要变成机器可读的数据。这意味着数据通过声学模型和语言模型进行发送。这两个过程是这样的:
声学模型确定了语言中音频信号和语音单位之间的关系,而语言模型将声音与单词及单词序列进行匹配。
这两个模型允许 ASR 系统对音频输入进行概率检查,以预测其中的单词和句子。然后,系统会选出具有置信度等级的预测。*
*有时语言模型可以优先考虑某些因其他因素而被认为更有可能的预测。
因此,如果通过 ASR 系统运行短语,它将执行以下操作:
· 进行声音输入:“嘿 Siri,现在几点了?”
· 通过声学模型运行语音数据,将其分解为语音部分。
· 通过语言模型运行该数据。
· 输出文本数据:“嘿 Siri,现在几点了?”

在这里,值得一提的是,如果自动语音识别系统是语音用户界面的一部分,则 ASR 模型将不是在运行的机器学习模型。许多自动语音识别系统都与自然语言处理 (NLP) 和文本语音转换 (TTS) 系统配合使用,以执行其给定的角色。

也就是说,深入研究语音用户界面本身就是个完整的话题。要了解更多信息,请查看此文章。

那么,现在知道了 ASR 系统如何运作,但需要构建什么?

什么是自动语音识别?
建立 ASR 系统:数据的重要性

什么是自动语音识别?
ASR 系统应该具有灵活性。它需要识别各种各样的音频输入(语音样本),并根据该数据做出文本输出,以便做出相应的反应。
为实现这一点,ASR 系统需要的数据是标记的语音样本和转录形式。比这要复杂一些(例如,数据标记过程非常重要且经常被忽略),但为了让大家明白,在此将其简化。
ASR 系统需要大量的音频数据。为什么?因为语言很复杂。对同一件事有很多种讲述方式,句子的意思会随着单词的位置和重点而改变。还考虑到世界上有很多不同的语言,在这些语言中,发音和单词选择可能会因地理位置和口音等因素而不同。

哦,别忘了语言也因年龄和性别而有所不同!
考虑到这一点,为 ASR系统提供的语音样本越多,它在识别和分类新语音输入方面越好。从各种各样的声音和环境中获取的样本越多,系统越能在这些环境中识别声音。通过专门的微调和维护,自动语音识别系统将在使用过程中得到改进。

因此,从最基本的角度来看,数据越多越好。的确,目前进行的研究和优化较小数据集相关,但目前大多数模型仍需要大量数据才能发挥良好的性能。

幸运的是,得益于数据集存储库和专用的数据收集服务,音频数据的收集变得越发简单。这反过来又增加了技术发展的速度,那么,接下来简单了解一下,未来自动语音识别能在哪些方面大展身手。

ASR 技术的未来
ASR 技术已融身于社会。虚拟助手、车载系统和家庭自动化都让日常生活更加便利,应用范围也可能扩大。随着越来越多的人接纳这些服务,技术将进一步发展。
除上述示例之外,自动语音识别在各种有趣的领域和行业中都发挥着作用:
· 通讯:随着全球手机的普及,ASR系统甚至可以为阅读和写作水平较低的社区提供信息、在线搜索和基于文本的服务。
· 改善可访问性:通过提供对应用程序的免提访问以及对电视、电影和商务会议的自动字幕,自动语音识别系统还能帮助伤残人士。
· 军事技术:在美国、法国和英国,军事项目一直在测试和评估战斗机的 ASR 系统。这包括设置射频、命令自动驾驶系统和控制飞行显示等任务。

当然,这些只是 ASR 如何支持和改善生活的几个例子,在下一个十年中,除了新颖的应用外,还可能会有更多的改善。


  产品咨询

王经理 :15566002333

  技术支持

吕经理 :13898143825

邮箱:lnxfkjyxgs@163.com

地址:辽宁省沈阳市于洪区太湖街9号四楼