欢迎来到辽宁讯飞公司官网, 今天是

最新资讯NEWS

当前位置: 首页 > 信息动态  > 最新资讯

讯飞智能语音先锋者:多模态信息处理与融合将会是大趋势

来源:www.lnxunfei.com    |   发布时间:2020年06月03日

  首先是大家关注的多模态技术。讯飞语音识别随着语音和计算机视觉技术日渐成熟,但是在一些应用场景很好地落地仍然有一些障碍,比如 AI 同传效果因为环境等因素很难保障和专业翻译人员的成果等效,于是在翻译领域出现了多模态方向的研究,比如在语音识别的同时在 PPT 上使用视觉技术,将声音和画面结合起来,这不仅更符合人类的习惯,同时可以识别准确率,使传达的信息更加准确。
 
  这种将声音、视觉、触觉等人类感官结合起来的思路,正在进行的语音与计算机视觉之间的互通是一回事吗?
 
  从狭义上来讲,可以说不是一回事,两者出发点有所不同。早讯飞做计算机视觉与语音识别之间的互通,是深度学习算法应用场景的自然延展与推进,类似的技术从语音识别的成功转入到在视觉领域进行尝试。
 
  而多模态研究的兴起,更多地是因为很多实际问题只用以往的纯语音或者纯视觉的方法很难很好地解决问题,只有更接近人处理问题的方式,给到更多的输入信息才能把问题解决。这是两者出发点上的一些区别,因此可以说两者不是一回事。
 讯飞语音识别
  但从广义上来讲,又可以说这两者就是一件事,正是因为有很多实际问题只靠单一的语音或者视觉无法解决,产品需求对技术提出了更高的要求,因此促使研究人员须改进核心技术,多模态研究就是一个很好的技术演进方向,从这个角度来看,两者又可以说是同一回事。
        
  谈到多模态技术的发展,以往无论是学术界还是产业界,都更多的把研究重 点聚焦在单个模态的研究上,近些年随着机器感知的软硬件技术、通信技术以及运算能力等技术的发展,单个模态的研究在一些场景的局限性也逐渐凸显出来,比如语音识别领域著 名的“鸡尾酒会问题”,在这些场景种多模态技术相比单模态技术优势更为明显,这也更符合我们人类的感知特性,因此,他判断多模态信息的处理以及融合将会是大的趋势。

  产品咨询

王经理 :15566002333

  技术支持

吕经理 :13898143825

邮箱:lnxfkjyxgs@163.com

地址:辽宁省沈阳市于洪区太湖街9号四楼