前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌开源最大手动注释视频数据集和 TensorFlow 模型性能调优工具

谷歌开源最大手动注释视频数据集和 TensorFlow 模型性能调优工具

作者头像
新智元
发布2018-03-27 12:03:42
1.8K0
发布2018-03-27 12:03:42
举报
文章被收录于专栏:新智元新智元

【新智元导读】谷歌再度开放Youtube视频数据集——Youtube边界框(YouTube-BoundingBoxes),含23类共500万手动注释的、紧密贴合对象边界的边界框,精度高于95%。谷歌称这是迄今最大的手动注释边界框视频数据集,希望该数据集能够推动视频对象检测和跟踪的新进展。

谷歌今天还开源了 TensorFlow 模型性能调优工具 tfprof,使用 tfprof 可以查看模型的参数量和张量形状(tensor shape),了解运算的运行时间、内存大小和设备位置。现在,tfprof 已经支持Python API、交互式命令行工具和单步脚本使用(One-shot Script)。

当今机器学习中最具挑战的一个研究领域便是让计算机理解场景内容。例如,一个球被墙挡住后从视线中短暂消失,然后又重新出现,人类知道这个后出现的球很可能就是刚才那个球,但这对于算法而言却并不是这么一回事。要理解这一点,不仅需要对视频的每一帧中包含的对象有一个全局性的了解,还需要知道这些对象在帧内的位置和它们随时间的位置变化。2016 年,谷歌发布了 YouTube-8M,一个由自动标记的YouTube视频组成的数据集。虽然这个数据集对该领域的进一步发展有所帮助,但还远远不够。

今天,为了促进视频理解方面的研究,我们发布了 YouTube-BoundingBoxes 数据集(https://research.google.com/youtube-bb/)。这是一个在21万 YouTube 视频片段中进行密集的标注,由包含13类物体的共500万边界框(bounding boxes)组成的视频数据集。边界框是指在时间上连续的帧中跟踪对象的框,到目前为止,这是包含边界框的最大的人工标注视频数据集。该数据集的规模之大,足以训练大型模型,并且包含在自然环境中拍摄的视频。更重要的是,人工标注的注释里包含在现实世界中出现的对象,它们可能被局部遮挡,出现运动模糊以及具有自然采光。

图:数据集的概况。条形图:现有图像(红色)和视频(蓝色)数据集中的相对检测数量。YouTube-BoundingBoxes 数据集(YT-BB)在最底部。表格:三个列的计数分别表示:分类注释,边界框,带边界框的单个视频。有关数据集的详细信息,请参阅预印本论文。

该数据集的一个关键特征是为整个视频片段提供边界框标记。这些边界框标记可用于训练利用时间信息以随时间进行识别,定位以及跟踪对象的模型。在视频中,带标记的对象可能完全被遮挡,并在后面的帧中重新出现。单个对象的这些标记有时不能再每个帧上识别出,但如果对象被精确地定位和跟踪,则可以在视频上下文中得到理解和识别

3个视频片段,取样标准为每秒 1帧。每个样本的最后一帧展示了由于模糊或遮蔽(比如列车那一帧),从视觉上识别带边界的对象难度有多大。但是,在时间上关联的帧当中,对象更容易被识别,这使得计算机能够通过推理(infer)对对象进行分类。注意,样本中仅有可见的部分被纳入了边界框:北极熊图像中,橙色箭头指示出了隐藏的头部。在两只狗嬉戏图中,橙色箭头指出隐藏的尾巴,蓝色箭头则指出了不可见的脚部。最下方飞机的样本中展示了在不同视角、遮蔽情况和取景中对部分对象进行注释。

我们希望这个数据集有助于计算机视觉和机器学习领域的研究,引导出分析和理解现实世界中的视觉问题的新方法。有关该数据集的更多信息可在相关预印本论文中了解。

YouTube边界框:用于视频对象检测的大型高精人类标注数据集

摘要

我们介绍了一个新的大型视频URL数据集——YouTube边界框(YT-BB),内含密集采样的、带对象边界框的注释。该数据集由大约38万个19秒左右的视频片段组成,能够自动选择突出在自然背景中,没有经过编辑或后期处理的对象,记录质量与普通手机摄像机的记录质量类似。这些对象代表了MS COCO标签集的一个子集。所有视频片段都由人工标注,带有高精度分类标签和每秒 1帧的边界框。大量连续使用精确度越来越高的人类注释,确保了每个类和边界框(每个都紧密贴合对象边界)的标签精度高于95%。最后,我们训练和评估了著名的深层网络架构,并在文中汇报了每帧分类和本地化的基准数据,为未来工作提供一个比较点。我们还演示了如何利用视频的时间连续性改进这种推论。数据集可以在这个网址找到https://research.google.com/youtubebb/。我们希望为研究人员和开发者提供这样大型的有序语料库,能够激发视频对象检测和跟踪的新进展。

【进入新智元公众号,在对话框输入“170207”下载论文】

谷歌开源 TensorFlow 模型性能调优工具 tfprof

谷歌今天还开源了 tfprof,tfprof 是模型性能调优工具(Profiling Tool for TensorFlow Models)的缩写,使用 tfprof 可以查看模型的参数量和张量形状(tensor shape),了解运算的运行时间、内存大小和设备位置。现在,tfprof 已经支持Python API、交互式命令行工具和单步脚本使用(One-shot Script)。

根据作者 Xin Pan 在 Github 的介绍,tfprof 的主要功能包括

  • 测量模型参数、浮点运算、张量形状
  • 测量操作执行时间,请求的内存大小和器件布局(device placement)
  • 检查检查点张量(checkpoint tensors)的形状和值
  • 基于名称范围或图结构浏览模型
  • 对运算进行选择性分组、过滤、建立账户(account)和排序

Github 文档还简单介绍了 Python API 的使用方法,比如,

要检查所有可训练变量的形状和大小时,

要检查浮点操作的数量时,

tfprof 是 TensorFlow 核心的一部分。使用 import tensorflow as tf 就行了。

编译来源:

https://research.googleblog.com/2017/02/advancing-research-on-video.html

https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/tfprof

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
命令行工具
腾讯云命令行工具 TCCLI 是管理腾讯云资源的统一工具。使用腾讯云命令行工具,您可以快速调用腾讯云 API 来管理您的腾讯云资源。此外,您还可以基于腾讯云的命令行工具来做自动化和脚本处理,以更多样的方式进行组合和重用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档