雅虎发布大量有助于研究机器学习的数据

2016年1月14日,计算机世界网发布消息,称雅虎发布了大量数据,用来帮助科研人员开展机器学习的研究工作。

雅虎发布的针对机器学习科学家的数据集成为了新的“有史以来最大的”数据集。这是一个用来收集匿名用户与诸如雅虎新闻和雅虎体育等新闻类网站交互消息的数据集。雅虎表示该数据集包含了1100亿个事件或记录。这些记录是在用户点击新闻故事或者采取一些其他的反馈动作时产生的,一共有13.5TB大小,这比以前发布的最大数据集大十多倍。

机器学习正被推广到各种各样的应用中,从自动驾驶到图像识别,再到在线推荐引擎等。但如果你不使用谷歌或者脸谱,你将很难得到大容量的真实数据集,用来测试和验证机器学习程序。计算机科学家建立模型并编写算法来引导机器学习系统,但他们需要大数据集来测试那些模型并改进它们。雅虎表示,数据是机器学习研究的生命线。然而,从传统上来看,使用大规模数据集只是大公司的机器学习研究者和数据科学家的特权,对大多数学术界的研究者来说是可望而不可及的。

用户数据可以从雅虎实验室的Webscope数据共享项目下载该数据集,这是一个针对非商业用途的匿名数据库。该数据集是在用户与雅虎新闻、体育、金融、影视和地产等的交互中形成的。数据是2015年前四个多月中从超过两千万雅虎用户收集到的。除了交互数据,还包括分类的人口统计信息,如部分用户的年龄范围和性别等。发布的数据还包括相关新闻文章的标题、摘要和关键词等。

雅虎表示,以前的最大数据集是由在线营销公司Criteo于去年发布的,大约有1TB大小,包含了40亿个事件。雅虎还表示它的目标是为学术研究者创造用武之地,这些研究者通常更擅长从网络上获取资源,很少求助于公司同行。但真实数据的缺乏会使他们无计可施。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-02-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【解读】关于数据中心可靠性和可用性的几个概念

导读:数据中心的重要性在于支持企业应用不间断运行,但近年来,世界各地的数据中心频频爆发安全故障事件,在一次次冲击着企业用户的心理防线。这也让我们产生一些思考,究...

4867
来自专栏互联网数据官iCDO

如何利用有限的转化数据制定明智的付费搜索竞价策略

严小鳙、朱玉雪,iCDO翻译志愿者。 前言:专栏作家Mark Ballard接下来将带我们了解,在制定AdWords关键词竞价策略时,如何通过统计学原理来支持...

2047
来自专栏云计算D1net

云计算,边缘计算和雾计算:了解每个计算的实际应用

您的运营是建立在您自己的一般云基础设施,还是选择使用雾和边缘计算等更专业的工具,这些都取决于您的业务需求和抱负。

1673
来自专栏智能算法

新工具让 AI 在计算机上能做任何事儿,包括编程

OpenAI,一个非营利组织,致力于追求在AI的巨大进步,并让这种进步免费提供给任何人,已经发布了 Universe 平台。Universe 是一个通过实验和积...

4106
来自专栏达摩兵的技术空间

我是如何学习前端的

随着前端的大热,越来越多的从业者选择入门前端,进阶,以及后续可能成为大神。但是很多人可能是出于某个发展的瓶颈阶段,不知道下一步应该学些什么,应该如何检验自己的能...

2183
来自专栏CDA数据分析师

我是如何转行成为了一名Python工程师

我是14年毕业,专业是建筑环境与设备工程。当时由于不想做本专业画管道图纸工作,转到偏市场营销类的岗位。前两年在沈阳,后来朋友在北京开了一家空气净化器公司,然后受...

1481
来自专栏服务端技术杂谈

左耳朵耗子

陈皓把自己称为骨灰级程序员,作为骨灰级程序员仍奋斗在第一线是很多程序员的榜样。

1132
来自专栏企鹅号快讯

我们应该担心吗?人工智能现在可以通过交谈来学习新单词!

关于人工智能在2017年有很多说法,许多令人难以置信的事态发展,人类目睹了第一个人工智能成为一个国家的公民。 但我们是否已经准备好让人工智能进入我们的社会?我们...

19810
来自专栏华章科技

高效能数据分析的七个习惯

如果你都不能向一个5岁的小孩解释清楚,那么你将很难将你的产品卖给其他人。产品数据分析的重点不是分析,别误会,你还是需要分析,但是它的故事和基于数据的推荐真的很重...

782
来自专栏腾讯社交用户体验设计

如何快速有效的发散思维

1283

扫码关注云+社区

领取腾讯云代金券