对于识别部分,使用的损失是CTC loss-
?
准备检测数据
我们必须转换数据以便我们可以将其输入我们的模型并对输出计算损失。...如果我们的批大小是32,那么输入形状将是(32,512,512,3),输出形状将是(32,512,512,6)。...在我的例子中,我将所有图像的大小调整为(15,64,3)。我对所有与图像对应的文本进行了编码,并在Keras预处理库的帮助下依次进行了转换。...因此,在编码之后,我们的输出将是(1,15)的形状,这15从哪里来,我将所有编码的文本填充为15个长度。
如果批大小为32,则输入形状为(32,15,64,3),输出形状为(32,1,15)。...然后这个转到文本识别分支(也就是RNN)和CTC解码器,它给出预测的文本。