首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >多目标动作识别与定位

多目标动作识别与定位
EN

Data Science用户
提问于 2019-03-23 09:45:32
回答 1查看 138关注 0票数 1

我想问的问题,有关行动检测的视频与建议帧。我使用了时态3D ConvNet在视频上的动作识别。成功地训练了它,并能识别视频上的动作。

当我进行推断时,我只从视频中收集了20帧,并将其输入到模型中,并给出了结果。关键是不同视频上的事件在大小上并不相似。其中一些覆盖了90%的框架,但也有一些在5月10%。让我们以两个物体碰撞为例,它可以在不同的尺度上发生,我想要检测到这个动作。

如何为模型提供准确的位置,如果它可以发生在一个不同的规模,不同的对象?我想到的是使用Yolo来收集感兴趣的区域,并在每次3D convnet时输入所收集的帧。但是如果有很多物体,速度就会很慢。怎么处理?

是否有任何行动识别的端到端解决方案与行动识别网络的目标位置建议?

我已经看过文件和博客,人们的建议是,找不到本地化问题的解决方案,所以动作识别模型得到了正确的框架。

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-03-23 10:07:37

因此,从视频中寻找行动恰巧是一项棘手的任务。我不知道时态3D convnet,但为了解决这样的问题,我会将CNN层耦合到单个视频帧上,然后将帧时间线传送到LSTM的另一层,以便找到视频的上下文。

由于在视频上执行的动作覆盖了帧的10%到90%,您可以在视频上执行TestTimeAugmentation,以便以更高的置信率找到动作。在这个谷歌的视频中也可以找到类似的方法。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/47833

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档