开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >锁定精彩！百度 ICCV 2019 提出小视频自动截取数据集TruNet

锁定精彩！百度 ICCV 2019 提出小视频自动截取数据集TruNet

CV君

发布于 2019-12-30 15:31:02

8130

发布于 2019-12-30 15:31:02

举报

文章被收录于专栏：我爱计算机视觉

点击我爱计算机视觉标星，更快获取CVML新技术

前几天武汉军运会上我国选手潘玉程破500米障碍跑世界记录，下面这段小视频在朋友圈疯传：

视频内容

就像一颗子弹，嗖嗖嗖～

随着抖音、快手等短视频应用的兴起，像这种引入入胜的高质量小视频内容成为各平台的巨大需求。

机器能在体育赛事、娱乐影视等视频中自动截取这样的精彩小视频吗？前几天百度公布的一篇 ICCV 2019 的论文中提出了这个新CV问题，并且构建了业内首个该方向数据集TruNet。

说实话，这是个很有前景的方向，搞好了CV研究人员靠算法能成为带货千万的抖音大V?。

这不同于传统的视频精彩片段检测和视频摘要问题，在这个问题中，最重要的是保持视频情节完整，百度在这篇文章中称这个问题为story-preserving long video truncation（也许可以翻译为故事完整的长视频截断），该问题需要一种算法来自动将长视频截断为多个简短且吸引人的子视频，每个子视频都包含不间断的故事。

百度的研究人员收集并标注了一个新的大型视频截断数据集，名为TruNet，其中包含1470个长视频，每个视频平均包含11个短故事。

上图为其中一个视频标注的例子，（a）展示了该视频共含有9首歌和舞蹈表演，（b）为第三段小视频的时间轴放大展示。

TruNet与大型视频数据集ActivityNet 1.3的比较：

另外，作者利用TruNet数据集，进一步开发和训练了一种用于视频截断的神经架构体系，该体系结构包含两个部分：边界感知网络（BAN）和Fast-Forward LSTM（FF-LSTM）。

BAN通过同时考虑帧级别的吸引力大小和是否为边界来生成高质量的候选时间片段。FF-LSTM则用于捕获一系列帧之间的高阶依存关系来确定候选时间片段是否是连贯且完整的故事。

作者实验表明，该文提出的算法在定量评价和用户调查方面都优于现有的用于情节完整长视频截断问题的方法。

定量研究比较：

用户调研投票结果：

这个问题蛮有意思的，而且也很有实用价值，欢迎大家Follow！

论文地址：

https://arxiv.org/abs/1910.05899v1

数据集地址：

https://ai.baidu.com/broad/download

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-10-23，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自我爱计算机视觉微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.