这两种结果都是属于正确的计算结果,可以想象,长度为200的数据,最后可以对应上nihao这个发音顺序的结果是非常多的。CTC就是用在这种序列有多种可能性的情况下,计算和最后真实序列值的损失值的方法。...,x_T)表示一个长度为T帧的数据,每一帧的数据是一个维度为m的向量,即每个x_i \in R^m。 x_i可以理解为对于一段语音,每25ms作为一帧,其中第i帧的数据经过MFCC计算后得到的结果。...200个左右),矩阵里的每一列之和为1。...定义B变换,表示简单的压缩,例如:
B(a,a,a,b,b,b,c,c,d) = (a,b,c,d)
以上6条路径为例:
B(\pi^1) = (j,i,n,y,e,w,u,r,e,n,r,u,s,h,...下面以“你好”为例,介绍该值的计算方法。
首先,根据前面的例子,找到所有可能被压缩为z=[n,i,h,a,o]的路径,记为\lbrace \pi|B(\pi) = z \rbrace。