前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测

[DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测

作者头像
演化计算与人工智能
发布2020-08-14 15:07:38
5890
发布2020-08-14 15:07:38
举报

3.9 语音辨识 Speech recognition

  • 问题描述 对于音频片段(audio clip)x ,y 生成文本(transcript),人听见的或者麦克风捕捉的都是空气中细微的气压变化,语音识别系统能够根据这种微弱的气压变化将音频转化为文本字符。
    • 将空气中微弱的气压变化显示成频率图的形式,并输出音频的文本内容如下图所示:
  • 考虑到人的耳朵并不会处理声音的原始波形,而是通过一种特殊的物理结构来测量不同的频率和强度的声波,音频的常见预处理方式就是生成这样的 声谱图 ,同样的 横轴是时间,纵轴是声音的频率,而图中不同的颜色显示了声波的能量,也就是在不同的时间和频率上这些声音有多大
  • 音位 过去的语音识别系统是依据 音位 来进行分辨的,即通过人为制定的音位符号来表示一个特定的语言,使用音位的符号标记就能使用机器合成出指定的语言。
  • 进展 但是在 深度学习 这种端到端的学习系统中使用 音位 来表示声音符号已经不再有必要,而是可以构建一个系统,通过向系统中输入音频,然后直接输出音频的文本。而不需要用这种人工设计的表示方法。所以语音识别使用的数据集特别巨大,往往可以长达 300 多个小时甚至 3000 个小时的文本音频数据集。大型的商业系统中也训练了 1W 或者 10W 个小时。
注意力模型在语音识别中的应用
  • 输入语音文本数据集的不同时间帧上的数据,并使用一个注意力模型输出文本描述。
CTC 损失函数语音识别(Connectionist temporal classification)

“Graves A, Gomez F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning. ACM, 2006:369-376.

  • 示例 假设输入音频为 the quick brown fox ,这时使用一个新的网络,在这个例子中 输入输出 的数量相等,在这里使用一个简单的 单向循环神经网络 作为例子,而 实际应用使用的往往是一个很大很深的双向 LSTM 或 GIU 结构的循环神经网络 通常输入的数量往往比输出的数量要多很多 比如你有一段 10 秒的音频,并且特征是 100HZ 的,即每秒有 100 个样本,于是这段 10s 的音频片段,就会有 1000 个输入。
  • 但是音频文本识别的输出肯定没有 1W 个,所以可以用 空白字符重复字符 来对其进行填充,其中 重复字符 可以用来重叠,而 空白字符 可以用来占位。
  • 例如 ttt_h_eee_\space__qqq__ \space 表示空格符,表示此处为单词的结尾,用来分割单词,而 “_ ” 表示用于占位的占位符,其中占位符中间的 重复字符 可以折叠。ttt_h_eee_\space__qqq__ 可以被处理为 the q 三个 t,e,q 都可以被折叠为一个字母,而占位符可以被忽略。

3.10 触发字检测 Trigger word detection

  • 随着语音识别的发展,越来越多的设备可以被你的声音 唤醒 ,这被称为 触发字检测系统
  • 有关于 触发字检测 的文献还处于发展阶段,对于 触发字检测 的最好算法目前还没有一个广泛的定论。
  1. 首先将音频文件输入到 RNN 中,然后定义目标标签 y
  1. 假如音频片段的一点处刚说完一个触发字,那么你就可以在训练集中把目标标签都设为 0,然后此点目标签设为 1.然后此点之后恢复成 0,持续这个过程,只要触发了关键词,就将目标标签设置为 1.
  2. 缺点 该算法构建了一个很不平衡的训练集,即 0 的出现次数比 1 的出现次数多出了很多。为了解决这个问题可以在 关键词被触发 后输出多个 1,以消除这种不平衡性。

参考资料

[1]

吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrawSky 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3.9 语音辨识 Speech recognition
    • 注意力模型在语音识别中的应用
      • CTC 损失函数语音识别(Connectionist temporal classification)
      • 3.10 触发字检测 Trigger word detection
      • 参考资料
      相关产品与服务
      语音识别
      腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档