如何理解语音识别中的CTC算法?

  • 回答 (6)
  • 关注 (0)
  • 查看 (486)

小白一枚,能否解释一下CTC算法的基本概念,可能应用的领域,以及在结合神经网络进行CTC算法的计算细节呀?

仁传联仁传联提问于
微信资讯小编回答于

CTC算法概念

CTC算法全称叫:Connectionist temporal classification。从字面上理解它是用来解决时序类数据的分类问题。

传统的语音识别的声学模型训练,对于每一帧的数据,需要知道对应的label才能进行有效的训练,在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代,来确保对齐更准确,这本身就是一个比较耗时的工作。

RNN+CTC模型的训练

CTC是一种损失函数,它用来衡量输入的序列数据经过神经网络之后,和真实的输出相差有多少。

训练实施方法

CTC的训练过程是通过∂p(z|x)/∂w调整w的值使得4中的目标值最大。

回答过的其他问题

我使用了印刷体识别功能,怎么查询当期需要支付多少钱?

查询下接口调用数然后在比下价格表就知道啦,

也可以去费用中心查看下 消费的具体价格是多少啦

为什么在MATLAB中sin(Pi)不是精确的,而sin(pi/2)是精确的?

我不知道Matlab计算的确切方式sin(x)- 但你可以通过使用幂级数来计算它,例如 sin x = x - (x^3)/3! + (x^5)/5! - (x^7)/7! + (x^9)/9! ... 把它变成一些Matlab代码,我们用下面的代码表示它: clc x = ...... 展开详请

当我开发ASP.NETCoreMVC时,我应该使用哪个服务?AddMvc还是AddMvcCore?

public static IMvcBuilder AddMvc(this IServiceCollection services) { if (services == null) { throw new ArgumentNullExcepti...... 展开详请

微信小程序怎么开发最省事儿?

新购买的CDB实例在腾讯云的备份策略是怎么样的?

老哥运气好,我刚好有官方回复~ CDB提供的备份方式有: 1)冷备:CDB的冷备有两种方式——逻辑冷备、物理冷备。CDB的物理冷备和逻辑冷备都是在提供给客户的“透明备机”上进行,在备份期间,不会影响客户的线上业务。 逻辑冷备的保留时长至少7天(加入白名单...... 展开详请

直播选择原始码,是否还会转码?

直播实时转码功能是为了适应不同终端/网络环境下的多码率需求,其中,原始视频:该选项为必选项,不可以不选,表示维持直播源的原始分辨率和码率(包括视频和音频),另外需要注意:1)如果音频格式不是aac,比如Mp3,不会转码,注意,直播不支持MP3的音频格式;2)如果分发有HLS,原始...... 展开详请

扫码关注云+社区

领取腾讯云代金券