谷歌开源最大手动注释视频数据集和 TensorFlow 模型性能调优工具

【新智元导读】谷歌再度开放Youtube视频数据集——Youtube边界框(YouTube-BoundingBoxes),含23类共500万手动注释的、紧密贴合对象边界的边界框,精度高于95%。谷歌称这是迄今最大的手动注释边界框视频数据集,希望该数据集能够推动视频对象检测和跟踪的新进展。

谷歌今天还开源了 TensorFlow 模型性能调优工具 tfprof,使用 tfprof 可以查看模型的参数量和张量形状(tensor shape),了解运算的运行时间、内存大小和设备位置。现在,tfprof 已经支持Python API、交互式命令行工具和单步脚本使用(One-shot Script)。

当今机器学习中最具挑战的一个研究领域便是让计算机理解场景内容。例如,一个球被墙挡住后从视线中短暂消失,然后又重新出现,人类知道这个后出现的球很可能就是刚才那个球,但这对于算法而言却并不是这么一回事。要理解这一点,不仅需要对视频的每一帧中包含的对象有一个全局性的了解,还需要知道这些对象在帧内的位置和它们随时间的位置变化。2016 年,谷歌发布了 YouTube-8M,一个由自动标记的YouTube视频组成的数据集。虽然这个数据集对该领域的进一步发展有所帮助,但还远远不够。

今天,为了促进视频理解方面的研究,我们发布了 YouTube-BoundingBoxes 数据集(https://research.google.com/youtube-bb/)。这是一个在21万 YouTube 视频片段中进行密集的标注,由包含13类物体的共500万边界框(bounding boxes)组成的视频数据集。边界框是指在时间上连续的帧中跟踪对象的框,到目前为止,这是包含边界框的最大的人工标注视频数据集。该数据集的规模之大,足以训练大型模型,并且包含在自然环境中拍摄的视频。更重要的是,人工标注的注释里包含在现实世界中出现的对象,它们可能被局部遮挡,出现运动模糊以及具有自然采光。

图:数据集的概况。条形图:现有图像(红色)和视频(蓝色)数据集中的相对检测数量。YouTube-BoundingBoxes 数据集(YT-BB)在最底部。表格:三个列的计数分别表示:分类注释,边界框,带边界框的单个视频。有关数据集的详细信息,请参阅预印本论文。

该数据集的一个关键特征是为整个视频片段提供边界框标记。这些边界框标记可用于训练利用时间信息以随时间进行识别,定位以及跟踪对象的模型。在视频中,带标记的对象可能完全被遮挡,并在后面的帧中重新出现。单个对象的这些标记有时不能再每个帧上识别出,但如果对象被精确地定位和跟踪,则可以在视频上下文中得到理解和识别

3个视频片段,取样标准为每秒 1帧。每个样本的最后一帧展示了由于模糊或遮蔽(比如列车那一帧),从视觉上识别带边界的对象难度有多大。但是,在时间上关联的帧当中,对象更容易被识别,这使得计算机能够通过推理(infer)对对象进行分类。注意,样本中仅有可见的部分被纳入了边界框:北极熊图像中,橙色箭头指示出了隐藏的头部。在两只狗嬉戏图中,橙色箭头指出隐藏的尾巴,蓝色箭头则指出了不可见的脚部。最下方飞机的样本中展示了在不同视角、遮蔽情况和取景中对部分对象进行注释。

我们希望这个数据集有助于计算机视觉和机器学习领域的研究,引导出分析和理解现实世界中的视觉问题的新方法。有关该数据集的更多信息可在相关预印本论文中了解。

YouTube边界框:用于视频对象检测的大型高精人类标注数据集

摘要

我们介绍了一个新的大型视频URL数据集——YouTube边界框(YT-BB),内含密集采样的、带对象边界框的注释。该数据集由大约38万个19秒左右的视频片段组成,能够自动选择突出在自然背景中,没有经过编辑或后期处理的对象,记录质量与普通手机摄像机的记录质量类似。这些对象代表了MS COCO标签集的一个子集。所有视频片段都由人工标注,带有高精度分类标签和每秒 1帧的边界框。大量连续使用精确度越来越高的人类注释,确保了每个类和边界框(每个都紧密贴合对象边界)的标签精度高于95%。最后,我们训练和评估了著名的深层网络架构,并在文中汇报了每帧分类和本地化的基准数据,为未来工作提供一个比较点。我们还演示了如何利用视频的时间连续性改进这种推论。数据集可以在这个网址找到https://research.google.com/youtubebb/。我们希望为研究人员和开发者提供这样大型的有序语料库,能够激发视频对象检测和跟踪的新进展。

【进入新智元公众号,在对话框输入“170207”下载论文】

谷歌开源 TensorFlow 模型性能调优工具 tfprof

谷歌今天还开源了 tfprof,tfprof 是模型性能调优工具(Profiling Tool for TensorFlow Models)的缩写,使用 tfprof 可以查看模型的参数量和张量形状(tensor shape),了解运算的运行时间、内存大小和设备位置。现在,tfprof 已经支持Python API、交互式命令行工具和单步脚本使用(One-shot Script)。

根据作者 Xin Pan 在 Github 的介绍,tfprof 的主要功能包括

  • 测量模型参数、浮点运算、张量形状
  • 测量操作执行时间,请求的内存大小和器件布局(device placement)
  • 检查检查点张量(checkpoint tensors)的形状和值
  • 基于名称范围或图结构浏览模型
  • 对运算进行选择性分组、过滤、建立账户(account)和排序

Github 文档还简单介绍了 Python API 的使用方法,比如,

要检查所有可训练变量的形状和大小时,

要检查浮点操作的数量时,

tfprof 是 TensorFlow 核心的一部分。使用 import tensorflow as tf 就行了。

编译来源:

https://research.googleblog.com/2017/02/advancing-research-on-video.html

https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/tfprof

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-02-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

AI 技术讲座精选:如何创建简易且能分辨垃圾邮件的ML分类器

在本篇教程中,我们会先提出要解决的问题,然后再利用名为朴素贝叶斯分类器(NaiveBayes Classifier)的机器学习技术解决相应的问题,非常简单。本篇...

34930
来自专栏大数据挖掘DT机器学习

美团推荐算法实践:机器学习重排序模型

本文介绍了美团网推荐系统的构建和优化过程中的一些做法,包括数据层、触发层、融合过滤层和排序层五个层次,采用了HBase、Hive、storm、Spark和...

69660
来自专栏人工智能头条

本周必看 | 7月ML&Python 最佳开源项目Top 10 :从几百个项目中脱颖而出,都在收藏!

【导读】七月就要结束了,在即将到来的 7 月最后一个周末,人工智能头条为大家整理了本月 ML 和 Python 最受欢迎的十大开源项目。就算放假在家也可以知道大...

13330
来自专栏新智元

【揭秘】美团如何用机器学习优化推荐系统算法

本文介绍了美团网推荐系统的构建和优化过程中的一些做法,包括数据层、触发层、融合过滤层和排序层五个层次,采用了HBase、Hive、storm、Spark和机器学...

45660
来自专栏ATYUN订阅号

【学术】从一个简单的模型开始,可以让机器学习更高效

AiTechYun 编辑:xiaoshan ? 要创建通用人工智能,必须首先掌握逻辑回归 从基础开始 在试图发展对世界的科学认识的时候,大多数的领域在探索重要的...

42970
来自专栏机器学习算法与Python学习

干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 谷歌机器学习:实际应用技巧 ? ? ...

86550
来自专栏Crossin的编程教室

我用 Python 算了下:编程教室的用户数哪天能到100万

这是一篇正经的数据分析案例。 去年12月初,在经过四年多的积累后,编程教室微信公众号的关注人数突破10万人。(可回顾 最开始我也没有想过会有这么一天…) 10万...

35190
来自专栏新智元

谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)

【新智元导读】在 ThingsExpo 会议上,谷歌软件工程师 Natalia Ponomareva 作了有关如何在大规模机器学习中取得成功的讲座。Natali...

409100
来自专栏AI研习社

机器学习者必知的 5 种深度学习框架

本文为雷锋字幕组编译的技术博客,原标题 The 5 Deep Learning Frameworks Every Serious Machine Learner...

19130
来自专栏机器之心

TPU加AutoML:50美元快速训练高效的ImageNet图像分类网络

机器之心整理 参与:刘晓坤、思源 昨日,Jeff Dean 在推特上表示他们在 ImageNet 图像分类上发布了新的 DAWNBench 结果,新型 Amoe...

406110

扫码关注云+社区

领取腾讯云代金券