【干货】谷歌 TensorFlow 工程负责人:标记大规模图片的最简方法

【新智元导读】前谷歌 TensorFlow 工程负责人 Peter Warden 和大家分享了利用 OSX 系统里的 Find 快速为大规模图片打标签,以优化深度学习的训练集合的方法。

我发现:如果想在深度学习中得到优质结果,收集大量数据的能力比使用最新的架构更为重要。因此,自从入职了 Jetpac,我投入了很多精力研究优化训练集合的最佳方法。我使用过,甚至自己写过许多不同的为此设计的用户界面,但最后令人惊讶的是,OSX 系统里内嵌在 stock 中的 Finder 的生产力居然是最高的!

通过以下方法,我可以在一个小时内整理好数千张图片:

  • 把图片复制并解压到 OS X 系统中的文件夹中。
  • 在 OS X的 Finder 应用(普通的文件浏览器)中打开这个文件夹。
  • 在 Finder 中选择以分栏视图浏览文件(在窗口顶端的工具栏中,视图浏览方式从左数的第三个图标)。
  • 选择第一张图片。你可以在右边的栏目中看到该图片的预览。
  • 把鼠标指针移动到窗口的右侧边缘,鼠标会变成“向左/右拖”的图标。
  • 拖动 Finder 窗口的右侧边缘,预览窗口会相应变大。当预览大小不再改变的时候,停止拖拽。

现在,你应该能看到一个这样的窗口:

有许多灵活运用这个功能的办法可供参考。假如我想从一组杂乱的图片中剔除一些分错类别的图,我就会用“上”,“下”键在图片中移动,并且快速判断预览中的图片是否需要删除。如果需要,就直接按下 Command 和 Delete 键删除该图。非常方便的是,删除后,窗口会自动呈现下一个图像。

如果我有一大堆图片需要分别标记到不同的类别中,而非简单地剔除杂项,那么我就会使用稍微复杂一点的办法——OSX 系统中的“标签(Tags)”功能。

首先,你要在键盘中创建一个打开标签菜单的快捷键,具体方法可参考如下说明:http://hints.macworld.com/article.php?story=20140504114022595;然后,使用“下”键浏览文件,并同时给文件贴上标签。不幸的是OSX已经取消了仅用单键贴标签的功能(老版本可行),但是这仍不失为一个给大量图片标签分类的好办法。

另一个我常用的快速剔除小部分杂项文件的办法是:在 Finder 中用图标视图打开图片文件夹,然后增大位于窗口右下角的预览视窗的大小。你可能还要从顶层的菜单里选择“显示->排列方式按->名称”,从而确保放大的图标可以在窗口中完全显示出来。

这个办法没有用分栏视图检视每张图片那么高效,但是如果我想快速浏览找到杂项的时候,就非常便利了。我通常都会直接拖动右边的滚动条或者直接用鼠标滚动,快速浏览整个文件夹,然后点击选取我要删除的文件。

我青睐这些小技巧的原因主要是因为它们的“轻量”,我不需要下载任何特定软件,而且Finder 加载预览的速度可以打败任何我用过的客户端软件,浏览图片的速度非常快。总而言之,我希望我的总结对你有所裨益。如果你有自己的标签小窍门,欢迎在 Twitter 上跟我交流。

原文地址:https://petewarden.com/2017/04/26/how-to-label-images-quickly/?nsukey=SceqDkLT4ERF6fEsL2U5wzb5olksVYIamH7y3NkVIYK9XZ9FSnK+wfO1coh12Oqto8D2CXufpwZzN5GRhRj5NA4daUGaCgKILdXPbgOrxiRv2a/2abTknOHHfc35KFBA+J2N7ft0ENHO38cFyo4Z7i+Okqflu189UMWPlXpnc1S8oMg0bGiVmUGzn2OS+5i6

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-05-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏微信终端开发团队的专栏

Android微信上的SVG

资源矢量化 “清晰”和“体积”的矛盾与麻烦 面对android的各种dpi某事,想要所有设备上的图片都能有最清晰的效果,就意味着每种dpi模式都必须提供一份对应...

44750
来自专栏V站

WordPress丨极简风清新响应式开源主题丨FLY主题

很高兴带来一款动漫风格的WordPress主题,FLY主题,是博客+CMS杂志式的设计风格,在博客与CMS之间,你不但可以选择其中一个,并且还可以同时拥有俩种风...

2.7K40
来自专栏Material Design组件

Human Interface Guidelines —— Labels

15560
来自专栏互联网杂技

20个为前端开发者准备的文档和指南2

1.CSS Vocabulary(CSS词汇表) (需自备墙梯才可以访问) 点击该应用,将会使你了解到CSS语法所有不同的部分,和它们对应的属性名是什么。 ? ...

375100
来自专栏Material Design组件

Human Interface Guidelines —— Alerts

37880
来自专栏开源优测

哪些年从事自动化测试需要经历的往事

在实战中,又去接触了watir,即ruby版的selenium,又是一通的直接看源码,顺便学习和了解ruby

11120
来自专栏数据小魔方

迷你图(sparklines)——原来图表可以这么小

今天跟大家分享一种小而美的excel单元格图表——迷你图。 ▼ 这种图表小到可以存放在单独的单元格中,能够展现数据大致趋势和概览,但是对于精准的数据信息表达却...

53460
来自专栏互联网杂技

20个为前端开发者准备的文档和指南5

1. Loupe 它是“一个小型可视化工具,可以帮助你理解JavaScript如何相互调用 stack(栈)/event loop(循环事件)/callback...

38870
来自专栏DeveWork

WordPress 投票插件Post Ratings,可在谷歌搜索显示星级投票(附中文包下载)

在谷歌搜索结果中显示星级投票是一件很拉风的事情,在Jeff 看来,如果一篇文章在搜索结果中有了评分,不仅仅是谷歌认可的象征,更是给访客点击的欲望。当然,最前提是...

360100
来自专栏hightopo

快速开发基于 HTML5 网络拓扑图应用

57760

扫码关注云+社区

领取腾讯云代金券