专栏首页arxiv.org翻译专栏基于多源特性的无监督视频摘要(CS)

基于多源特性的无监督视频摘要(CS)

视频摘要的目的是生成一个简洁而又具有代表性的视觉摘要,传达出原始视频的本质。无监督方法的优点是,它们不需要人工注释来学习摘要能力,并将其推广到更广泛的领域。以前的工作依赖于相同类型的深度特征,通常基于ImageNet数据预先训练的模型。因此,我们提出将多特征源与块融合和跨步融合,以提供更多关于视觉内容的信息。为了对两个基准TVSum和SumMe进行全面评估,我们将我们的方法与四种最先进的方法进行比较。其中两种方法是我们自己实现的,以重现报告的结果。我们的评估表明,我们在两个数据集上获得了最先进的结果,同时也突出了之前关于评估方法的工作的缺点。最后,我们对两个基准数据集的视频进行错误分析,总结并发现导致错误分类的因素。

原文题目:Unsupervised Video Summarization via Multi-source Features

原文:Video summarization aims at generating a compact yet representative visual summary that conveys the essence of the original video. The advantage of unsupervised approaches is that they do not require human annotations to learn the summarization capability and generalize to a wider range of domains. Previous work relies on the same type of deep features, typically based on a model pre-trained on ImageNet data. Therefore, we propose the incorporation of multiple feature sources with chunk and stride fusion to provide more information about the visual content. For a comprehensive evaluation on the two benchmarks TVSum and SumMe, we compare our method with four state-of-the-art approaches. Two of these approaches were implemented by ourselves to reproduce the reported results. Our evaluation shows that we obtain state-of-the-art results on both datasets, while also highlighting the shortcomings of previous work with regard to the evaluation methodology. Finally, we perform error analysis on videos for the two benchmark datasets to summarize and spot the factors that lead to misclassifications.

原文链接:https://arxiv.org/abs/2105.12532

原文作者:Hussain Kanafani, Junaid Ahmed Ghauri, Sherzod Hakimov, Ralph Ewerth

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌AI:根据视频生成深度图,效果堪比激光雷达

    目前自动驾驶的核心技术是LiDAR(激光雷达),一种运用雷达原理,采用光和激光作为主要传感器的汽车视觉系统。LiDAR传感器赋予了自动驾驶汽车能够看到周边环境的...

    新智元
  • 深度强化学习首次在无监督视频摘要生成问题中的应用:实现state-of-the-art效果

    【导读】近日,针对视频摘要自动生成中大多数方法均为多阶段建模的问题,来自中国科学院、伦敦大学玛丽皇后学院的学者发表论文提出基于深度强化学习的无监督视频摘要方法。...

    WZEARW
  • 深度学习在医学影像上的应用(二)——图像重建及后处理,标注,回归,配准,图像超分辨率

    上一篇给大家介绍了深度学习在医学影像上分类的应用案例,这一篇我将分享深度学习在医学影像上关于图像重建及后处理,图像标注,图像配准,图像超分辨率和回归的应用。

    医学处理分析专家
  • 基于多路径帧预测的鲁棒无监督视频异常检测(CS CV)

    视频异常检测广泛应用于安全监控等领域,具有很大的挑战性。目前的视频异常检测方法大多采用深度重建模型,但在实际应用中,由于正常和异常视频帧之间的重建误差差不够,导...

    凌茜
  • 计算机视觉学术速递[6.18]

    【1】 XCiT: Cross-Covariance Image Transformers 标题:XCiT:互协方差图像转换器

    公众号-arXiv每日学术速递
  • 论文Express | 美图云+中科院AAAI2018:视频语义理解的类脑智能

    大数据文摘
  • 7 Papers | 深度强化学习综述、图灵71年前未发表的智能机器论文

    1.标题:Modern Deep Reinforcement Learning Algorithms

    机器之心
  • ACL 2019 | 精选8篇微软ACL论文解读,一览最新研究进展

    近两年,自然语言中的预训练模型如ELMo、GPT和BERT给自然语言处理带来了巨大的进步,成为研究热点中的热点。这些模型首先需要在大量未标注的文本上训练一个从左...

    AI科技大本营
  • 噪声和去噪的无监督意见总结(CS CL)

    在包含数十万个文档-摘要配对的大数据集上对大容量模型进行有监督的训练,是最近深度学习技术在抽象概括方面成功的关键。遗憾的是,在大多数领域(除新闻领域外),这样的...

    刘持诚

扫码关注云+社区

领取腾讯云代金券