我有一个特定的卡通人物的脸的图像。我有好几个小时的录像。我想自动找到视频中这个卡通人物出现的部分。
https://github.com/ageitgey/face_识别似乎对卡通人物不太有效(它不能识别我图像中的任何一张脸)。
这方面的最新情况是什么?是否有一个开源库或框架对此很在行?
发布于 2019-10-16 02:10:52
你很可能需要训练一个神经网络来检测你的卡通人物。虽然这其中的某些部分是乏味的,但是这种类型的任务已经有了很好的文档,并且有许多用户友好的框架可用。我建议阅读tensorflow对象检测api教程。
最困难的部分就是收集你的数据。你需要采集视频帧来训练神经网络。根据动画中有多少个角色,输入的复杂性和可变性,以及您选择的网络模型,我怀疑您需要收集200-500个不同的样本进行培训。
收集帧后,需要对数据进行注释。“注释”是指你在字符周围手动绘制边框的过程,这样神经网络就知道要找什么了。这个过程在上面的链接中有更详细的描述。幸运的是,您不需要自己编写注释工具;Tensorflow教程指导您安装LabelImg,它为您提供了一个图形界面来标记所选的框架。
创建数据集后,可以继续使用Tensorflow指令对网络进行培训。
如果你有很多视频要推断,我建议你的帧采样在相对较大的间隔,如5甚至10 (取决于视频的fps )。然后,你可以以合理的精确速度推断出5到10倍的速度。
例如,假设您的网络推理在5帧间隔内通过x_t 通过x_{t+10} 进行帧推断。如果x_t 和x_{t+5} 都至少有一个大小合理的边框,那么x_t 和x_{t+5} 之间的帧很可能也有字符。如果帧x_{t+10} 没有合理大小的边框,那么我们可以假设字符(S)将帧留在x_{t+7} 或x_{t+8} 左右。这种方法可以让你控制固有的速度/精度的权衡。
https://datascience.stackexchange.com/questions/61791
复制相似问题