谷歌开源最大手动注释视频数据集和 TensorFlow 模型性能调优工具

【新智元导读】谷歌再度开放Youtube视频数据集——Youtube边界框(YouTube-BoundingBoxes),含23类共500万手动注释的、紧密贴合对象边界的边界框,精度高于95%。谷歌称这是迄今最大的手动注释边界框视频数据集,希望该数据集能够推动视频对象检测和跟踪的新进展。

谷歌今天还开源了 TensorFlow 模型性能调优工具 tfprof,使用 tfprof 可以查看模型的参数量和张量形状(tensor shape),了解运算的运行时间、内存大小和设备位置。现在,tfprof 已经支持Python API、交互式命令行工具和单步脚本使用(One-shot Script)。

当今机器学习中最具挑战的一个研究领域便是让计算机理解场景内容。例如,一个球被墙挡住后从视线中短暂消失,然后又重新出现,人类知道这个后出现的球很可能就是刚才那个球,但这对于算法而言却并不是这么一回事。要理解这一点,不仅需要对视频的每一帧中包含的对象有一个全局性的了解,还需要知道这些对象在帧内的位置和它们随时间的位置变化。2016 年,谷歌发布了 YouTube-8M,一个由自动标记的YouTube视频组成的数据集。虽然这个数据集对该领域的进一步发展有所帮助,但还远远不够。

今天,为了促进视频理解方面的研究,我们发布了 YouTube-BoundingBoxes 数据集(https://research.google.com/youtube-bb/)。这是一个在21万 YouTube 视频片段中进行密集的标注,由包含13类物体的共500万边界框(bounding boxes)组成的视频数据集。边界框是指在时间上连续的帧中跟踪对象的框,到目前为止,这是包含边界框的最大的人工标注视频数据集。该数据集的规模之大,足以训练大型模型,并且包含在自然环境中拍摄的视频。更重要的是,人工标注的注释里包含在现实世界中出现的对象,它们可能被局部遮挡,出现运动模糊以及具有自然采光。

图:数据集的概况。条形图:现有图像(红色)和视频(蓝色)数据集中的相对检测数量。YouTube-BoundingBoxes 数据集(YT-BB)在最底部。表格:三个列的计数分别表示:分类注释,边界框,带边界框的单个视频。有关数据集的详细信息,请参阅预印本论文。

该数据集的一个关键特征是为整个视频片段提供边界框标记。这些边界框标记可用于训练利用时间信息以随时间进行识别,定位以及跟踪对象的模型。在视频中,带标记的对象可能完全被遮挡,并在后面的帧中重新出现。单个对象的这些标记有时不能再每个帧上识别出,但如果对象被精确地定位和跟踪,则可以在视频上下文中得到理解和识别

3个视频片段,取样标准为每秒 1帧。每个样本的最后一帧展示了由于模糊或遮蔽(比如列车那一帧),从视觉上识别带边界的对象难度有多大。但是,在时间上关联的帧当中,对象更容易被识别,这使得计算机能够通过推理(infer)对对象进行分类。注意,样本中仅有可见的部分被纳入了边界框:北极熊图像中,橙色箭头指示出了隐藏的头部。在两只狗嬉戏图中,橙色箭头指出隐藏的尾巴,蓝色箭头则指出了不可见的脚部。最下方飞机的样本中展示了在不同视角、遮蔽情况和取景中对部分对象进行注释。

我们希望这个数据集有助于计算机视觉和机器学习领域的研究,引导出分析和理解现实世界中的视觉问题的新方法。有关该数据集的更多信息可在相关预印本论文中了解。

YouTube边界框:用于视频对象检测的大型高精人类标注数据集

摘要

我们介绍了一个新的大型视频URL数据集——YouTube边界框(YT-BB),内含密集采样的、带对象边界框的注释。该数据集由大约38万个19秒左右的视频片段组成,能够自动选择突出在自然背景中,没有经过编辑或后期处理的对象,记录质量与普通手机摄像机的记录质量类似。这些对象代表了MS COCO标签集的一个子集。所有视频片段都由人工标注,带有高精度分类标签和每秒 1帧的边界框。大量连续使用精确度越来越高的人类注释,确保了每个类和边界框(每个都紧密贴合对象边界)的标签精度高于95%。最后,我们训练和评估了著名的深层网络架构,并在文中汇报了每帧分类和本地化的基准数据,为未来工作提供一个比较点。我们还演示了如何利用视频的时间连续性改进这种推论。数据集可以在这个网址找到https://research.google.com/youtubebb/。我们希望为研究人员和开发者提供这样大型的有序语料库,能够激发视频对象检测和跟踪的新进展。

【进入新智元公众号,在对话框输入“170207”下载论文】

谷歌开源 TensorFlow 模型性能调优工具 tfprof

谷歌今天还开源了 tfprof,tfprof 是模型性能调优工具(Profiling Tool for TensorFlow Models)的缩写,使用 tfprof 可以查看模型的参数量和张量形状(tensor shape),了解运算的运行时间、内存大小和设备位置。现在,tfprof 已经支持Python API、交互式命令行工具和单步脚本使用(One-shot Script)。

根据作者 Xin Pan 在 Github 的介绍,tfprof 的主要功能包括

  • 测量模型参数、浮点运算、张量形状
  • 测量操作执行时间,请求的内存大小和器件布局(device placement)
  • 检查检查点张量(checkpoint tensors)的形状和值
  • 基于名称范围或图结构浏览模型
  • 对运算进行选择性分组、过滤、建立账户(account)和排序

Github 文档还简单介绍了 Python API 的使用方法,比如,

要检查所有可训练变量的形状和大小时,

要检查浮点操作的数量时,

tfprof 是 TensorFlow 核心的一部分。使用 import tensorflow as tf 就行了。

编译来源:

https://research.googleblog.com/2017/02/advancing-research-on-video.html

https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/tfprof

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-02-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏MixLab科技+设计实验室

写给设计师的人工智能指南:如何找出相似的文章

聊聊文本挖掘中的 “找出相似的文章”, 为“推荐系统”做准备。 以下为正文。 ---- 先了解下文本挖掘的一般过程。 如何让计算机读懂一段文字? 本质上要解决的...

38710
来自专栏PPV课数据科学社区

32页ppt干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

谷歌机器学习:实际应用技巧 ? ? 什么是机器学习(ML)? 从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。 ML 的类型:监督学习...

48710
来自专栏AI科技大本营的专栏

AI 技术讲座精选:如何创建简易且能分辨垃圾邮件的ML分类器

在本篇教程中,我们会先提出要解决的问题,然后再利用名为朴素贝叶斯分类器(NaiveBayes Classifier)的机器学习技术解决相应的问题,非常简单。本篇...

3243
来自专栏新智元

实用:用深度学习方法修复医学图像数据集

2033
来自专栏机器之心

TPU加AutoML:50美元快速训练高效的ImageNet图像分类网络

机器之心整理 参与:刘晓坤、思源 昨日,Jeff Dean 在推特上表示他们在 ImageNet 图像分类上发布了新的 DAWNBench 结果,新型 Amoe...

38311
来自专栏新智元

谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)

【新智元导读】在 ThingsExpo 会议上,谷歌软件工程师 Natalia Ponomareva 作了有关如何在大规模机器学习中取得成功的讲座。Natali...

39010
来自专栏机器学习算法与Python学习

干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 谷歌机器学习:实际应用技巧 ? ? ...

6545
来自专栏机器之心

学界 | DeepMind等机构提出「图网络」:面向关系推理

该论文作者之一,DeepMind 研究科学家 Oriol Vinyals 表示,该研究的代码也将在近期公开。

1610
来自专栏技术翻译

机器学习如何改变软件开发

让我们把几件事弄清楚。虽然神经网络、深度学习、机器学习和人工智能似乎都是一样的,但它们都有各自的历史、起源和等级制度。

1991
来自专栏企鹅号快讯

强化学习从入门到放弃

重要概念 强化学习(REinforcement Learning)(个人理解):在设定的规则下,通过训练让机器学习完成特定的任务。 强化学习的目的是学习一个策略...

3315

扫码关注云+社区