学界 | 谷歌新研究,自监督视频上色约等于目标追踪和姿态估计

AI 科技评论按:本文发布于 Google AI Blog,介绍了 Google 一项最新研究成果——自监督学习下的视频着色模型,还可以直接用于视频目标跟踪和人体姿态估计。AI 科技评论根据原文进行了编译。

跟踪视频中的运动对象是计算机视觉中的一个基本问题,这对于动作识别(Activity recognition)、对象交互(Object interaction)或者是视频风格转化(Video Stylization)等应用的研究而言尤为重要。但是,由于教会机器以可视化的方式去跟踪视频中的主体,需要数量巨大且具有标签的数据(大规模标注视频数据不具有可行性)用来训练,所以这项任务也非常具有挑战性。

在论文《Tracking Emerges by Colorizing Videos》(https://arxiv.org/abs/1806.09594)中,谷歌的研究人员们构思了一种卷积网络,该网络可以从单个参考帧中复制颜色,然后对灰度视频中的内容上色。通过这种做法,网络学会了在没有监督信息辅助的情况下,自动地可视化跟踪视频中的主体。重要的是,尽管该模型从未显式地进行过「目标跟踪任务」的训练,但是它却能够同时跟踪多个对象,甚至在遇到遮挡或者变形的情况下依然保持健壮性(Robust),这一切的实现都不需要用到任何标签数据。

目标跟踪预测结果样例展示,这些样例来自于公开的学术数据集 DAVIS 2017。在模型学会了给视频着色之后,目标跟踪机制会在没有提供任何监督信息的情况下自动被模型掌握。研究人员们会在第一帧中为模型指定感兴趣的区域(通过不同的颜色表示),然后模型在没有进行任何额外的学习或者提供监督信息的情况下,自动为后续帧中的目标进行着色。

学习为视频再着色

谷歌的研究人员们提出了一个假设,颜色的时间域一致性(Temporal coherency)为教导机器跟踪视频中特定区域提供了极好的大规模训练数据。显然,当颜色在时间域上不连贯时(例如灯光突然亮起)会有例外情况,但是通常情况下,随着时间的推移视频中的颜色都能够保持稳定。此外,大多数视频都是彩色的,为模型的训练提供了规模可变的自我监督学习信号。他们将彩色视频转换为灰度视频,然后再添加着色步骤,因为一个视频中可能存在有多个物体具有相同的颜色,但是通过着色操作,他们可以教会机器去跟踪特定的目标或区域。

为了训练该系统,谷歌的研究人员们使用了来自 Kinetics 数据集的视频,这是一个大型且公开的视频数据集,里边的视频主要与日常活动有关。他们将除了第一帧之外的所有视频帧转换为灰度格式,然后训练神经网络以预测的方式还原后续帧中的图像色彩。为了能够准确地还原视频中的色彩,我们希望模型能够学会跟踪图像中的特定区域。他们通过观察实验结果得出的主要结论是,为了还原色彩而让模型学会跟踪图像中的特定区域,也会促使模型自动习得物体跟踪的能力。

使用来自 DAVIS 2017 数据集的视频来说明视频再着色任务。该模型接收单帧彩色视频帧和一个灰度格式视频作为输入,然后预测还原出视频中其它帧的颜色。该模型学会了从给出的参考帧中复制所需的颜色,这个能力也让模型在没有人工监督的情况下学会了目标跟踪的能力。

要模型学会从给出的单帧参考图像中复制到正确颜色,这就要求模型能够隐式地学会图像帧之间的区域映射关系。这迫使模型习得可用于目标跟踪的显式机制。为了帮助读者们更好地理解视频再着色算法的机制,我们在下面展示了一些预测着色的结果,这些视频来自于 Kinetics 数据集。

通过提供的参考帧预测还原剩余帧的图像色彩,输入视频来自于公开的 Kinetics 数据集

虽然网络是在没有标注数据(Ground-truth)的情况下进行训练的,但我们的模型学会了跟踪视频第一帧中指定的任意视觉区域。模型可以跟踪轮廓中的对象或是视频中的单个像素点。所需要做的唯一改变就是,现在在整个视频中传播的是代表感兴趣区域的标签,而不是颜色。

跟踪器分析

由于模型是针对大量未标记的视频进行训练的,因此谷歌的研究人员们希望能够深入了解模型学到的内容。下面的视频显示了一个标准技巧,即通过使用主成分分析法(PCA)将模型学到的嵌入向量(Embeddings)投影到 RGB 颜色空间,从而实现嵌入向量的可视化。结果表明,在模型学习到的嵌入向量空间中,最近邻倾向于等价为同一对象主体,即便是存在变形和视点变化的情况下也是如此。

第一行展示了来自于 DAVIS 2017 数据集的视频。第二行可视化了来自着色模型的内部嵌入向量。图中相似的嵌入向量在可视化之后会呈现出相近的颜色。这表明了学习到的嵌入向量是按照对象主体来划分图像中的像素点。

姿态跟踪

谷歌的研究人员们发现该模型还可以在初始帧给定了人体关键点之后,跟踪人体姿态。他们在公开的学术数据集 JHMDB 上做了可视化,展示了人体姿态估计跟踪。

该样例展示了使用着色模型实现人体骨骼点跟踪。在这种情况下,输入的第一帧是人体姿态,接着后续的姿态运动将被自动跟踪。该模型可以实现跟踪人体姿态,即便是从未被显示地针对这项任务训练过。

虽然着色模型的精确度还不能超过监督学习模型,但是它很好地学会了跟踪视频对象(Video segments)和人体姿态(Human pose),并且性能要好于最新的基于光流的模型方法(https://arxiv.org/abs/1612.01925)。对于不同运动类型的追踪性能测试表明,对于许多自然复杂性(例如动态背景、快速运动和遮挡)场景,他们的模型要优于光流模型。请阅读论文以获得更多的详情。

展望未来

谷歌的结果表明,视频着色提供了一种信号,可以用于在没有监督信息的情况下学习跟踪视频中的对象。此外,他们还发现我们模型系统的失败与视频着色的失败有关,这表明要进一步改进视频着色模型可以从推进自监督跟踪研究入手。

Via ai.googleblog.com,AI 科技评论编译。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-07-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 最大规模数据集、最优图像识别准确率!Facebook利用hashtag解决训练数据难题

24450
来自专栏人工智能

深度学习与机器学习

机器学习和深度学习变得风靡一时!突然之间,每个人都在谈论他们 —— 不管他们是否了解这两者的区别!无论您是否关注数据科学,你肯定听过这些术语。

305110
来自专栏AI科技评论

学界 | 发美照时打上「#」,还能帮Facebook提升图片识别率哟

AI 科技评论按:近日 Facebook 科学家团队发布基于主题标签的深度学习方法,使用已有的拥有主题标签的图片作为训练数据,从而大幅提升了训练数据集的大小。数...

12620
来自专栏机器之心

观点 | 为什么深度学习仍未取代传统的计算机视觉技术?

选自zbigatron 作者:Zbigatron 机器之心编译 参与:张楚、黄小天 本文作者认为,深度学习只是一种计算机视觉工具,而不是包治百病的良药,不要因为...

35740
来自专栏新智元

自然语言处理终极方向:深度学习用于自然语言处理的5大优势

【新智元导读】在自然语言处理领域,深度学习的承诺是:给新模型带来更好的性能,这些新模型可能需要更多数据,但不再需要那么多的语言学专业知识。 在自然语言处理领域,...

39460
来自专栏人工智能

机器学习和深度学习概念入门(下)

目 录 1人工智能、机器学习、深度学习三者关系 2什么是人工智能 3什么是机器学习 4机器学习之监督学习 5机器学习之非监督学习 6机器学习之半监督学习 7机...

21580
来自专栏PPV课数据科学社区

这是一份「不正经」的深度学习简述

作为人工智能领域里最热门的概念,深度学习会在未来对我们的生活产生显著的影响,或许现在已经是了,从 AlphaGo 到 iPhone X 上的人脸识别(FaceI...

33950
来自专栏新智元

文本生成哪家强?上交大提出基准测试新平台 Texygen

来源:arxiv 编译:Marvin 【新智元导读】上海交通大学、伦敦大学学院朱耀明, 卢思迪,郑雷,郭家贤, 张伟楠 , 汪军,俞勇等人的研究团队最新推出Te...

55980
来自专栏人工智能

机器学习的基本概念

我发现,查阅和掌握机器学习基本概念的最佳方法是,回顾机器学习教科书的介绍章节,并观看典型的在线课程视频。

506100
来自专栏新智元

重磅 | 谷歌发布Graph Learning平台,解密图像识别核心技术(附论文)

近来机器学习突飞猛进使计算机系统能够解决现实世界中的复杂问题。其中之一便是谷歌的大规模、基于图的机器学习平台,这是由 Google Research 的 Exp...

52870

扫码关注云+社区

领取腾讯云代金券