专栏首页量子位看了谷歌Quick,Draw!数据集,才知道世界各地简笔画差异这么大

看了谷歌Quick,Draw!数据集,才知道世界各地简笔画差异这么大

李杉 编译自 TechCrunch 量子位 报道 | 公众号 QbitAI

去年11月,谷歌展示了几项有趣的机器学习实验,其中包括Quick, Draw!——在这款游戏中,你可以画一个东西,让图片识别系统猜测你画的究竟实是什么。

该公司现在又发布了玩家提交的海量图片,将其作为一个公开数据库,供人工智能开发者使用。目前,这个数据库包含5000万张图,谷歌还打算继续扩充它。

如果你觉得浏览5000万张潦草的绘画毫无乐趣,那也不要担心,因为关键不在这里。

关键在于元数据。这些元数据来自许多不同国家,内容也有很大差异,而且充满乐趣。

例如,你可以从中了解德国人和韩国人对猫或椅子有什么不同看法。

当然,其中的一些模式非常值得思考。很显然,韩国人和俄罗斯人更喜欢把椅子画在角落或侧面。为什么?你或许可以借助自己的机器学习系统找出背后的原因。

视频内容

其中还有很多有趣的信息。谷歌在博文中指出,整个数据库里的运动鞋比例很大,以至于系统很难识别出高跟鞋和凉鞋。人们画猫的方法可能也存在一些特定模式。你画的猫是否跟别人有所不同?或许也可以开发一套机器学习算法找出答案。

谷歌建议你使用新的Facets工具对海量数据进行视觉化。当你拥有这么大的数据时,如何对其进行分类,以便人们找到值得思考的粗糙模式和想法?如何找到系统性偏见或改进的机会,或者其他类似的东西?

这5000万张图片只是个开始——谷歌今后还将发布另外大约7.5亿张图片,还有可能包括其他项目的有趣数据。

更多信息见Google Research Blog:https://research.googleblog.com/2017/08/exploring-and-visualizing-open-global.html

数据集:https://quickdraw.withgoogle.com/data

本文分享自微信公众号 - 量子位(QbitAI),作者:专注报道AI

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-08-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 迄今最大公开语音数据集上线,汉语部分还不够强,需要你来帮忙

    今天,Mozilla发布了迄今为止最大的公开语音数据集Common Voice,内容全部来自志愿者的贡献。它的总时长达到了1368小时,包含18种语言,其中也有...

    量子位
  • 快手AI技术副总裁郑文:为什么说AI是短视频平台的核心能力

    7月初举办的中国软件研发管理行业峰会(CSDI)上,快手AI技术副总裁郑文针对AI技术在短视频领域的应用做了精彩演讲。他介绍了人工智能技术是如何在快手整个业务流...

    量子位
  • 为了不让GPU等CPU,谷歌提出“数据回波”榨干GPU空闲时间,训练速度提升3倍多

    因为通用计算芯片不能满足神经网络运算需求,越来越多的人转而使用GPU和TPU这类专用硬件加速器,加快神经网络训练的速度。

    量子位
  • MyBatis 核心配置综述之 ResultSetHandler

    我们之前介绍过了MyBatis 四大核心配置之 Executor、StatementHandler、 ParameterHandler,今天本文的主题是介绍一下...

    cxuan
  • 如何选购及管理腾讯云 MySQL 数据库

    如何选购及管理腾讯云 MySQL 数据库?有了腾讯云计算作为基础,我们可以把这些复杂的底层操作交给云计算去完成,而我们只要集中精力去实现业务就可以了。

    用户6641189
  • "一言蔽之系列"--简说SQL与NoSQL那些事

    文章结构: 1、关系型数据库:ACID理论 2、非关型系数据库:分布式存储理论、CAP理论、BASE理论、优缺点、常用NoSQL数据库 3、Python链...

    流川枫
  • 如何选购及管理腾讯云 MySQL 数据库

    如何选购及管理腾讯云 MySQL 数据库?有了腾讯云计算作为基础,我们可以把这些复杂的底层操作交给云计算去完成,而我们只要集中精力去实现业务就可以了。

    魏艾斯博客www.vpsss.net
  • 简单聊下最近我对数据系统的看法

    1. 因为面向对象语言和关系性数据库存在阻抗不匹配(impedance mismatch),并且随着需要处理的数据量增大,文档型数据以“NoSQL”的名义获得了...

    哒呵呵
  • 简单聊下最近我对数据系统的看法

    1. 因为面向对象语言和关系性数据库存在阻抗不匹配(impedance mismatch),并且随着需要处理的数据量增大,文档型数据以“NoSQL”的名义获得了...

    哒呵呵
  • 七种常用特征工程

    像一个优秀的工程师一样使用机器学习,而不要像一个机器学习专家一样使用机器学习方法。 ---google 当在做数据挖掘和数据分析时,数据是所有问题的基础...

    智能算法

扫码关注云+社区

领取腾讯云代金券