为了保持实现简单,虽然可以将诸如attention之类的高级功能添加到网络中,但是没有实现,因为主脚本是相当模块化的。
主机训练
首先,我们将在主机笔记本电脑上定义和训练网络。...为了演示视频的实时图像字幕,我们必须将文本覆盖在实时视频源的顶部。也可以使用OpenCV API来完成。首先,我们需要安装正确的版本。
安装OpenCV
OpenCv4.1是从源代码编译的。...捕获框架后,可以使用以下功能将文本覆盖在每个框架的顶部:
def __draw_label(img, text, pos, bg_color): font_face = cv2.FONT_HERSHEY_TRIPLEX..., thickness) cv2.putText(img, text, pos, font_face, scale, color, 2, cv2.LINE_AA)
下图显示了从相机拍摄的一帧,日期重叠在该帧的顶部...总结
可以看出,网络仅在图像内容与训练图像相似的情况下执行OK。
为了改善描述,需要使用更大的文本语料库和更大的带注释的数据集。