学界 | 弱监督视频物体识别新方法:香港科技大学联合CMU提出TD-Graph LSTM

选自arXiv

机器之心编译

参与:李泽南、路雪

在图像识别任务中,模型的训练一直非常依赖于标注数据,同时训练结果难以泛化。香港科技大学与卡耐基梅隆大学的研究者们最近发表的研究提出时间动态图 TD-Graph LSTM 试图解决这些问题,他们的新方法也刷新了视频目标检测的业内最佳水平。该论文已入选即将在 10 月底举行的 ICCV2017 大会。

随着数据驱动方式在图像识别上的不断发展,人们对于扩大目标检测系统规模的兴趣越来越大。然而,与分类任务不同,用不同的类与边界框完整标注对象实例的方法几乎是不可扩展的。因此,人们加大对无监督和弱监督的目标检测方法的探索力度,但现在,完全无监督、无标注的方法在类似任务中的性能表现很差,而常规弱监督方法则需要使用静态图像来训练检测器。这些目标检测器无法在转移域的情形下将良好表现泛化到视频处理中。一种替代方案是使用这些弱监督的方法,但是使用视频的帧来训练。然而,目前的方法在很大程度上依赖于图像级别标记的准确性,并且容易出现标记缺失(如图 1 所示)。

在香港科技大学与卡耐基梅隆大学共同发表的新论文中,研究人员探索了一种新的弱监督视频目标检测方式,它使用人类动作标签作为目标检测的监督学习内容。如下图所示,多个帧中粗略的人类动作标签(如看笔记本电脑或坐在椅子上)有助于指出有关的具体识别对象(如笔记本和椅子)。与之前的各类研究相比,新的方法有两个主要优点:1)通过视频的文字动作描述收集标签比通过文本标记、搜索查询和动作识别数据集 [32, 10, 36] 容易得多;2)视频固有的时间相干性为模型提供了更多线索,利于识别每个对象实例,并帮助克服标签丢失的问题。

图 1. 左侧显示了传统的弱监督目标检测设置,每个训练图像都有关于对象类别的准确图像级标注;右侧是动作驱动弱监督视频目标检测设置。每个视频里都会出现视频级的动作标签,表明动作内容及其在视频中发生的时段(开始和结束)。对于每一帧,其左下方的对象类别是动作标签中的参与对象,而右下方的对象类别则是每一帧中的所有对象。

图 2. TD-Graph LSTM 架构。

每帧首先传递到空间卷积神经网络中以提取区域级的特征。随后通过两个连续帧中区域之间的动态边缘连接构建时间图结构。TD-Graph LSTM 随后在更新后的图上循环增加信息,以生成所有区域的时间特征表示。区域级别的分类模块可以生成每帧中所有区域的类别可信度,随后进行聚合以获得帧级动作预测。每帧的最终动作驱动损失函数用于向整个模型反馈信号。在每次梯度更新后,时间图会基于新的视觉特征进行动态更新。为清晰起见,图中省去了一些边缘。

图 3. TD-Graph LSTM 在第 t 次梯度更新时的示意图。

图 4. Charades 游戏视频关键帧的样本图。动作标签都在图像底部,而相关对象则在图像上部。

表 1. 在 Charades 数据集中评估测试分类平均精度(%)时,我们新提出的模型与两种目前最先进的弱监督学习方法的全面性能比较。

表 2. 在 Charades 数据集中评估测试检测平均精度(%)时,我们新提出的模型与两种目前最先进的弱监督学习方法的全面性能比较。

图 7. 新方法与两种目前最佳的视频目标检测方法的定性比较。绿色框为检测结果,黄色框为真值。

论文:Temporal Dynamic Graph LSTM for Action-driven Video Object Detection

论文链接:https://arxiv.org/abs/1708.00666

摘要:在本论文中,我们探讨了弱监督目标检测框架。大多数现有框架着重于使用静态图来学习目标检测器,但由于域转移,这些检测器通常无法泛化至视频。因此,我们尝试让这些检测器直接从日常活动的视频中学习。我们没有使用边界框,而是探索了使用动作描述作为监督的方式,因为这种标记方式相对容易获得。一个常见问题是:未包含在人类动作中的物体通常不会出现在描述语句中,这被称为「标记缺失」。为了解决这个问题,我们提出了全新的时间动态图长短期记忆网络 TD-Graph LSTM。它通过构建基于目标提议的时间相关性并横跨整个视频的动态图来实现全局时间推理。因此,通过在整个视频中相关目标提议的知识进行传递,新方法可以显著减少每一帧的标记缺失问题。我们在大规模日常活动数据集(如 Charades)上进行了大量评估,证明了这种新方法的优越性。我们还发布了 Charades 数据集中超过 5000 帧的目标边界框标注。我们相信,这些标注数据会对未来基于视频的目标识别研究有所裨益。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-08-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT技术精选文摘

OCR检测与识别技术

2.2K100
来自专栏机器之心

前沿 | 循环神经网络不需要训练?复现「世界模型」的新发现

作者:Corentin Tallec、Léonard Blier、Diviyan Kalainathan

15140
来自专栏IT派

干货 | 机器学习之必知必会6个点

导语:过去两年中,我曾经多次折服于机器学习的魅力。但每当我决定尝试新事物时,经常会不得不重新学习某些概念和课程,其实大部分学习就是这样一个过程。在学习机器学习这...

36550
来自专栏专知

【经典重读】机器学习的那些事

【导读】现在以深度学习、强化学习、GAN等为代表的算法模型技术发展方兴未艾。在追随这些前沿技术同时,我们也需要对机器学习的基本概念的进行理解,如“学习=表示+评...

37150
来自专栏AI研习社

博客 | 谷歌最强 NLP 模型 BERT 解读

雷锋网 AI 科技评论按:本文是追一科技潘晟锋基于谷歌论文为 AI 科技评论提供的解读稿件。

14220
来自专栏AI研习社

阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入

ICCV,被誉为计算机视觉领域三大顶级会议之一的、作为计算机视觉领域最高级别的会议之一,其论文集代表了计算机视觉领域最新的发展方向和水平。阿里巴巴在今年的 IC...

39970
来自专栏人工智能

从基础知识到实际应用,一文了解机器学习非凸优化技术

选自arXiv 优化技术在科技领域应用广泛,小到航班表,大到医疗、物理、人工智能的发展,皆可看到其身影,机器学习当然也不例外,且在实践中经历了一个从凸优化到非凸...

260100
来自专栏IT大咖说

艺术领域中的Tensorflow应用

摘要 本次演讲内容主要分为三个方面,首先会简单介绍一下Tensorflow,然后简单讲解可以用Tensorflow实现的深度神经网络算法,之后再介绍这些...

39660
来自专栏新智元

ICLR2019七大争议论文:是评审不公,还是论文真不行

由 LeCun 和 Bengio 等人联合发起的深度学习顶会 ICLR,今年你投稿了吗?

14340
来自专栏AI研习社

OpenAI“巧妙”发现无监督情感神经元,可利用文本检测用户情感

日前,OpenAI在官网公布了一项新研究成果,介绍了一个可以高效学习情感表征的无监督系统,它能够预测亚马逊评论中的下一个字符。 研究人员采用了线性模型,在一个小...

41390

扫码关注云+社区

领取腾讯云代金券