深度学习在腾讯云上有哪些应用?

  • 回答 (8)
  • 关注 (0)
  • 查看 (610)

腾讯云有哪些相关产品呢?我想使用深度学习做一些事情,但是对我这种小白来说可能有点难,有没有相关的应用场景参考下,有教程的话最好!

asiocasioc提问于
名字真难选a梦想成为一个有趣的人回答于

说说人工智能在语音识别中的应用吧!目前主流的语音识别都大致分为特征提取,声学模型,语音模型几个部分。目前结合神经网络的端到端的声学模型训练方法主要CTC和基于Attention两种。我今天主要讲讲CTC算法。

CTC基本概念

CTC算法全称叫:Connectionist temporal classification。从字面上理解它是用来解决时序类数据的分类问题。

传统的语音识别的声学模型训练,对于每一帧的数据,需要知道对应的label才能进行有效的训练,在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代,来确保对齐更准确,这本身就是一个比较耗时的工作。

如图所示,是“你好”这句话的声音的波形示意图, 每个红色的框代表一帧数据,传统的方法需要知道每一帧的数据是对应哪个发音音素。比如第1,2,3,4帧对应n的发音,第5,6,7帧对应i的音素,第8,9帧对应h的音素,第10,11帧对应a的音素,第12帧对应o的音素。(这里暂且将每个字母作为一个发音音素)

与传统的声学模型训练相比,采用CTC作为损失函数的声学模型训练,是一种完全端到端的声学模型训练,不需要预先对数据做对齐,只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注,并且CTC直接输出序列预测的概率,不需要外部的后处理。

既然CTC的方法是关心一个输入序列到一个输出序列的结果,那么它只会关心预测输出的序列是否和真实的序列是否接近(相同),而不会关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。

CTC引入了blank(该帧没有预测值),每个预测的分类对应的一整段语音中的一个spike(尖峰),其他不是尖峰的位置认为是blank。对于一段语音,CTC最后的输出是spike(尖峰)的序列,并不关心每一个音素持续了多长时间。

如图2所示,拿前面的nihao的发音为例,进过CTC预测的序列结果在时间上可能会稍微延迟于真实发音对应的时间点,其他时间点都会被标记会blank。

这种神经网络+CTC的结构除了可以应用到语音识别的声学模型训练上以外,也可以用到任何一个输入序列到一个输出序列的训练上(要求:输入序列的长度大于输出序列)。

比如,OCR识别也可以采用RNN+CTC的模型来做,将包含文字的图片每一列的数据作为一个序列输入给RNN+CTC模型,输出是对应的汉字,因为要好多列才组成一个汉字,所以输入的序列的长度远大于输出序列的长度。而且这种实现方式的OCR识别,也不需要事先准确的检测到文字的位置,只要这个序列中包含这些文字就好了。

讲了半天还没讲AI+CTC 别急 我们继续

RNN+CTC模型的训练

下面介绍在语音识别中,RNN+CTC模型的训练详细过程,到底RNN+CTC是如何不用事先对齐数据来训练序列数据的。

首先,CTC是一种损失函数,它用来衡量输入的序列数据经过神经网络之后,和真实的输出相差有多少。

比如输入一个200帧的音频数据,真实的输出是长度为5的结果。 经过神经网络处理之后,出来的还是序列长度是200的数据。比如有两个人都说了一句nihao这句话,他们的真实输出结果都是nihao这5个有序的音素,但是因为每个人的发音特点不一样,比如,有的人说的快有的人说的慢,原始的音频数据在经过神经网络计算之后,第一个人得到的结果可能是:nnnniiiiii...hhhhhaaaaaooo(长度是200),第二个人说的话得到的结果可能是:niiiiii...hhhhhaaaaaooo(长度是200)。这两种结果都是属于正确的计算结果,可以想象,长度为200的数据,最后可以对应上nihao这个发音顺序的结果是非常多的。CTC就是用在这种序列有多种可能性的情况下,计算和最后真实序列值的损失值的方法。

过程入下图所示:

以一段“你好”的语音为例,经过MFCC特征提取后产生了30帧,每帧含有12个特征,即x∈R30×14(这里以14个音素为例,实际上音素有200个左右),矩阵里的每一列之和为1。后面的基于CTC-loss的训练就是基于后验概率y计算得到的。

目前,深度学习的算法已经大规模应用于腾讯云的语音识别产品中。腾讯云拥有业内最先进的语音识别技术,基于海量的语音数据,积累了数十万小时的标注语音数据,采用LSTM,CNN,LFMMI,CTC等多种建模技术,结合超大规模语料的语言模型,对标准普通话的识别效果超过了97%的准确率。腾讯云的语音技术,应用涵盖范围广泛,具备出色的语音识别、语音合成、关键词检索、静音检测、语速检测、情绪识别等能力。并且针对游戏,娱乐,政务等几十个垂直做特殊定制的语音识别方案,让语音识别的效果更精准,更高效,全面满足电话客服质检、语音听写、实时语音识别和直播字幕等多种场景的应用。

回答过的其他问题

腾讯云cdn什么时候内测HSTS 配置?

名字真难选a梦想成为一个有趣的人
我也在期待腾讯云的CDN支持HSTS,不过在支持之前,有一个方法可以近似替代。可以将你网站的首页设置为不缓存,在首页的header中加入no-cache或no-store来禁止首页的缓存,随后在整个网站的header中再加入HSTS的头部。这样的话,因为首页不缓存,所以登录的时候...... 展开详请

网卡不小心禁用了怎么办?

名字真难选a梦想成为一个有趣的人

如果你服务器的所有网卡都禁用了,可以通过控制台的VNC方式登录服务器,然后在去去启用网卡。

如果我备案了,然后不想用这个服务器了怎么办?

名字真难选a梦想成为一个有趣的人

不想用了就不用呗,如果这个运营商都不用了,可以直接进行注销备案或取消接入。如果换服务IP地址的话,非经营性的可以不专门变更备案,如果是经营性的就需要办理变更备案了。

当我尝试关闭ElasticSearch客户端时发生java.lang.NoSuchMethodError异常?

名字真难选a梦想成为一个有趣的人

在使用es 5.5.1时,我在运行测试代码时遇到了同样的问题。我通过添加下面的maven dependency来解决它:

io.netty netty-all 4.1.25。最终测试

请使用改备案号提交到甘肃管局备案,禁止跨省备案?

名字真难选a梦想成为一个有趣的人

通常来说,你在哪里就要在哪里备案,不过要是实在备案政策不允许,可以尝试一下户籍地备案,其他地方还是谨慎备案~~

辽宁身份证可以在海南省办理备案吗?

名字真难选a梦想成为一个有趣的人

目前海南的管局似乎并没有类似的要求,可以去提交备案尝试一下~~

关于作者

所属标签

扫码关注云+社区

领取腾讯云代金券