前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >语音识别的前沿论文,看我们推荐的这4篇

语音识别的前沿论文,看我们推荐的这4篇

作者头像
马上科普尚尚
发布2020-05-11 15:43:29
1.1K0
发布2020-05-11 15:43:29
举报

关注文章公众号 回复"语音识别"获取本主题精选论文

近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。

由SFFAI18分享嘉宾白烨同学为大家精选出来的关于语音关键词检索方面的论文以及田正坤同学为大家精选出来的关于利用RNN-Transducer进行端到端声学建模的论文,将带你了解语音识别基本方向。你可以先仔细阅读,并带着问题来现场交流哦。

1

?????

推荐理由:此篇文章是第一篇使用深度神经网络,直接将音频序列编码为固定长度向量进行QbE KWS的文章。在这之前的KWS基本上都是基于DTW计算序列之间的距离,而这篇文章首次使用了LSTM对序列进行编码,最后直接计算距离即可,速度快,效果好。基于这种范式,还诞生了关键词检测的应用SnowBoy(内部具体模型可能不一样)。

推荐理由来自:白烨

2

?????

推荐理由:语音检索(Keyword Search, or Spoken Term Detection)中,如何将语音识别的结果建立倒排索引,快速定位到关键词发生的位置,是语音检索中重要问题。基于加权有限状态转换器的时间因子自动机方法,因为其计算高效(检索时线性复杂度),准确,框架优雅,已经成为了语音检索中的标准方法。在流行的开源语音工具包Kaldi中也已经集成了这一方法。

推荐理由来自:白烨

3

?????

推荐理由:这是百度硅谷实验室的一篇文章,比较了CTC、RNN-Transducer以及Attention模型在原理以及实验性能上的差异,对于想利用端到端模型进行语音识别建模的同学,具有很好的指导意义。 文章显示没有额外语言模型的注意力模型以及RNN-Transducer模型性能都超过了基线CTC模型。同时文章还研究了怎么样选取编码器结构。

推荐理由来自:田正坤

4

????

推荐理由:这是Google2018年的一个工作,文章讲述了丰富的细节来帮助我们如何训练好一个RNN-Transducer网络。文章探索了多种模型结构以及如何利用外部数据。文中使用多级CTC来辅助模型训练,获得了很好的效果。

推荐理由来自:田正坤

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-01-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档