谷歌:计算机视觉模型可在无监督情况下跟踪对象并对视频着色

AiTechYun

编辑:chux

视频的对象跟踪是计算机视觉的一个基本问题,对于诸如活动识别,对象交互或视频风格化等应用至关重要。然而,教会一台机器以直观地跟踪物体充满挑战性,部分原因在于它需要大型的,标记过的用于训练的跟踪数据集,这对大规模注解是不切实际的。

在“Tracking Emerges by Colorizing Videos”一文中,我们引入了一种卷积网络,可以对灰度视频进行着色,但受限于从单个参考帧复制颜色。在这样做的过程中,网络会自动学习,在没有监督的情况下自动跟踪对象。重要的是,尽管该模型从未被明确地训练过,但它可以跟踪多个物体,跟踪遮挡,并且在不需要任何标记的训练数据的情况下保持稳健的变形。

在公开发布的学术数据集DAVIS 2017上进行跟踪预测的示例。学习了着色视频后,无需监督即可自动生成跟踪机制。我们在第一帧中指定感兴趣的区域(用不同的颜色表示),我们的模型在没有任何额外的学习或监督的情况下向前传播。

学习将视频重新着色

我们的假设是,颜色的时间一致性为教学机器跟踪视频中的区域提供了大规模出色的训练数据。显然,有一些例外情况,比如在颜色不是瞬时的情况下(例如突然点亮的灯),但一般情况下颜色随时间变化是稳定的。此外,大多数视频都包含色彩,提供可扩展的自我监督学习信号。我们对视频进行脱色,然后添加着色步骤,因为可能有多个具有相同颜色的对象,但通过着色,我们可以教机器跟踪特定对象或区域。

为了训练我们的系统,我们使用Kinetics数据集中的视频,这是一个大型公共数据集,收集了很多描绘日常活动的视频。我们将除第一帧以外的所有视频帧转换为灰度图,并训练卷积网络以预测后续帧中的原始颜色。我们希望该模型能够学习如何跟踪区域以准确恢复原始颜色。我们的主要观察结果是需要跟踪对象进行着色,这将导致对象跟踪模型自动学习。

我们使用DAVIS 2017数据集中的视频来说明视频重新着色任务。该模型接收一个颜色帧和一个灰度视频作为输入,并预测视频其余部分的颜色。该模型学习从参考框架中复制颜色,这使得无需人工监控即可学习跟踪机制。

学习从单一参考框架复制颜色需要模型学习内部指向右侧区域以便复制正确的颜色。这迫使模型学习一种我们可以用于跟踪的显式机制。

为展示视频着色模型的工作原理,我们显示了一些来自Kinetics数据集视频的预测着色。

尽管网络训练时没有实况一致性,但我们的模型学习跟踪视频第一帧中指定的任何视觉区域。我们可以跟踪视频中列出的物体或单点。我们所做的唯一改变是,我们现在不用在整个视频中传输色彩,只需传输感兴趣区域的标签。

分析跟踪器

由于模型是在大量无标签的视频上进行训练的,所以我们想要了解模型的学习情况。

下面的视频展示了一个标准的技巧,通过使用主成分分析(PCA)将它们投射到三维空间中,并将其绘制为RGB视频,从而可视化我们的模型所了解的嵌入。结果表明,在学习的嵌入空间中,即使是在变形和观点的改变上,最接近的往往与物体的同一性相对应。

上面一行:我们展示了来自DAVIS 2017数据集的视频。 下面一行:我们从色彩化模型中将内部的嵌入可视化。 类似的嵌入在可视化中也会有类似的颜色。这表明学习嵌入是通过对象标识对像素进行分组。

跟踪姿势

我们发现该模型还可以跟踪初始帧中给定关键点的人体姿势。我们用公开可用的学术数据集JHMDB显示跟踪人类关节骨骼的结果。

使用该模型跟踪人体骨骼运动的示例。在这种情况下,输入是第一帧的人体姿势,随后的动作会被自动跟踪。该模型可以跟踪人的姿势,即使它从未明确地受过训练。

虽然我们还没有超过强大的监督模型,但色彩化模型学习跟踪视频片段和人体姿势,足以胜过基于光流的最新方法。通过运动类型分解性能表明,对于许多自然复杂性(如动态背景,快速运动和遮挡),我们的模型比光流更具鲁棒性。

详情请查阅论文:arxiv.org/abs/1806.09594

未来展望

我们的研究结果表明,视频着色提供了一种信号,模型无需监督即可学习跟踪视频中的对象。此外,我们发现我们的系统故障与视频着色失败有关,这表明进一步改进视频着色模型可以促进自我监督跟踪的进展。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-06-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | OpenAI推出机器人新系统:机器可通过VR演示自主学习新任务

选自OpenAI 作者:PETER WELINDER等人 机器之心编译 参与:晏奇、黄小天 近日,OpenAI 官方博客上发表了一篇名为《自主学习的机器人(R...

3628
来自专栏AI研习社

进入 kaggle 竞赛前 2% 的秘诀

前几年,我找到了一些标准的流程来探索特征进而建立起更好的机器学习模型。这些简单但是强大的技术帮我在 Instacart 网站购物车分析竞赛中排进前2%,而且在其...

914
来自专栏专知

基于TensorFlow的机器学习速成课程25讲视频全集(07-09讲)

【导读】前些日子,大家都知道,Google 上线了基于 TensorFlow 的机器学习速成课程,它包含 40 多项练习、25 节课程以及 15 个小时的紧凑学...

3887
来自专栏企鹅号快讯

机器学习初学者常犯的六大错误总结

AiTechYun 编辑:yining 在机器学习中,有很多方法来构建产品或解决方案,而且每种方法都有不同的假设。很多时候,如何识别哪些假设是合理的并不是件容易...

2088
来自专栏北京马哥教育

只需十四步:从零开始掌握 Python 机器学习(附资源)

分享一篇来自机器之心的文章。关于机器学习的起步,讲的还是很清楚的。原文链接在:只需十四步:从零开始掌握Python机器学习(附资源) Python 可以说是现...

4158
来自专栏人工智能LeadAI

从零开始掌握Python机器学习(附不可错过的资源)

01 基 础 篇 01 基本Python 如果我们打算利用 Python 来执行机器学习,那么对 Python 有一些基本的了解就是至关重要的。幸运的是,因为 ...

3925
来自专栏AI科技评论

学界 | 手动调参慢,随机搜索浪费资源?DeepMind异步优化算法PBT解决神经网络痛点

AI科技评论按:在围棋和Atari游戏、图像识别与语言翻译等领域,神经网络都取得了巨大的成功。但经常被忽视的一点是,神经网络在这些特定应用中的成功往往取决于研究...

3295
来自专栏AI研习社

自学习 AI 智能体第二部分:深度 Q 学习

深度学习的数学指导。 在关于深度强化学习的多系列的第二部分中,我将向你介绍 AI 主体如何学习在具有离散动作空间的环境中表示的有效方法。

1427
来自专栏AI科技评论

动态 | 4分钟训练ImageNet!腾讯机智创造AI训练世界纪录

注:腾讯机智机器学习平台由TEG架构平台部和运营管理部团队携手,并和香港浸会大学计算机科学系褚晓文教授团队深度合作联袂打造。本文转载自腾讯技术工程公众号

971
来自专栏机器之心

学界 | 商汤联合提出基于FPGA的快速Winograd算法:实现FPGA之上最优的CNN表现与能耗

42510

扫码关注云+社区

领取腾讯云代金券