学界 | 李飞飞协同斯坦福、CMU带来全新成果:从网络嘈杂的视频中进行学习

李飞飞作为人工智能领域鲜有的活跃女性学者,不知道这一次她又带领着团队做出了怎样的贡献呢?赶紧随AI科技评论来看看吧。这项研究是李飞飞团队在今年CVPR上的一项最新工作,该方法提出了一种模型用于自动标注网络中巨量的嘈杂视频。

以下内容是AI科技评论根据论文内容进行的部分编译。

论文摘要

人类行为多种多样,而要如何才能让机器理解具有多样化和细粒度的人类行为,则是计算机视觉领域中的一个关键性的开放问题。通过手工的方式标注训练视频,对于少数的动作类型是可行的,但是这种策略无法完整覆盖丰富多样的所有动作。

图一,该论文中的模型使用一组标注数据来学习如何为新的没有见过的动作类别进行标注的策略。这样可以学习特定领域的专有知识,以及如何在避免语义漂移(Semantic drift)的同时选择不同的范例。比如,该模型可以从训练数据中进行学习,如图所示,其中人的动作线索对正确动作分类的帮助更大(比如“骑马”),而不是动物的外形。在测试期间,这种知识可以被应用于标记一些全新类别的嘈杂数据,比如“饲养动物”,而传统的半监督方法则是基于视觉相似(Visual similarity)性进行标注。

当前,解决这一个问题的一个可能有效的策略是,使用半监督(Semi-supervised)或者“网络监督(Webly-supervised)”的方法,利用来自网络检索所产生的嘈杂数据来学习新的动作。然而,这些方法要么通常无法学习到特定领域的知识(Domain-specific knowledge),要么依赖于需要不断迭代的手工调整的数据标签策略(Hand-tuned data labeling policies)。据AI科技评论了解在这项研究中,李飞飞她们团队提出了一种基于增强学习(Reinforcement learning-based)的方法,该方法能够从嘈杂的网络检索结果中筛选出适合于训练分类器的样本。

图二,模型框架图。该模型使用从网络搜索所得的候选示例集,为特定的视觉概念学习分类器。在每一个时间节距(time step)t,模型通过Q-learning的智能体来选择样本(比如Dk),并将该样本加入到已经存在的正样本数据集Dt-1中构成训练样本。然后该训练样本被用于训练视觉分类器。分类器将同时更新智能体的状态st+1并提供一个奖励rt。然后在测试期间,经过训练的智能体能够用于从任意的全新的视觉概念的网络检索结果中,自动选取出正样本。

该方法的核心思想是,使用Q-learning来学习一个小型标签训练数据上的数据标签策略,然后再利用该模型来自动标注嘈杂的网络数据,以获得新的视觉概念。

据AI科技评论了解,为了验证该方法,研究员们在当前最富有挑战性的动作识别数据集Sports-1M上进行了实验,实验内容包括动作识别基准、细粒度和新动作类别预测。通过实验证明了该方法能够为嘈杂数据学习到足够好的标签,并且使用这些标签能够学习到准确的视觉概念分类器。

Via Learning to Learn from Noisy Web Videos

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏应兆康的专栏

26. 训练集误差分析

你的算法必须在训练集上表现得很好,才能期望它在开发集和测试集上能够有着良好的表现。除了先前提到的用于处理高偏差的技术外,我通常也会在训练数据上进行误差分析,处理...

2827
来自专栏喔家ArchiSelf

机器学习之于IOT浅见

为了更好地服务于目标客户, 嵌入式设计团队也在研究新技术, 如机器学习和深度学习。 深度学习允许这些设计师以有限的资源更快地开发和部署复杂的系统和设备。 通过这...

782
来自专栏人工智能头条

中国人工智能学会通讯 | 当知识图谱“遇见”深度学习

2055
来自专栏AI科技大本营的专栏

ECCV 2018|商汤37篇论文入选,为你解读精选论文(附链接+开源资源)

【导读】9 月 8 日-14 日,每两年举办一次的 2018 欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开,本次会议总共收到了 2439 篇有效的论...

1425
来自专栏AI科技评论

学界 | 伯克利 AI 实验室博客发布首篇文章:让神经网络自行选择模块,实现动态推理

深度神经网络虽然在图像,语音,机器人等方面取得了巨大的成功,但是这些成功通常局限在识别任务或者生成任务中,对于推理任务,常规的神经网络通常是无能为力的。伯克利A...

3159
来自专栏大数据文摘

论文Express | 美图云+中科院AAAI2018:视频语义理解的类脑智能

912
来自专栏AI科技大本营的专栏

知乎大神周博磊:用“Network Dissection”分析卷积神经网络的可解释性

当地时间 7 月 22 日,备受瞩目的 CVPR 2017 最佳论文在夏威夷会议中心揭晓。本届 CVPR 2017 共有两篇最佳论文(分别被康奈尔和清华团队、以...

3907
来自专栏量子位

Keras作者、谷歌研究员Chollet:深度学习的理论局限

王小新 编译自 Keras Blog 量子位 出品 | 公众号 QbitAI 从图像处理,到自然语言处理,再到语音识别等多个领域,深度学习都取得了很好的成绩,但...

3314
来自专栏机器之心

资源 | 图像配对数据集TTL:展现人类和机器判断图像相似性的差异

选自arXiv 作者:Amir Rosenfeld等 机器之心编译 参与:刘晓坤、李泽南 人类对图像相似性的知觉判断依赖于丰富的内部表征,现有的计算机视觉技术应...

3036
来自专栏人工智能

深度学习的局限性

本文改编自我的书"Deep Learning with Python(用Python深度学习)"中第9章第2节( Manning Publications 出版...

45111

扫码关注云+社区