雅虎发布大量有助于研究机器学习的数据

2016年1月14日,计算机世界网发布消息,称雅虎发布了大量数据,用来帮助科研人员开展机器学习的研究工作。

雅虎发布的针对机器学习科学家的数据集成为了新的“有史以来最大的”数据集。这是一个用来收集匿名用户与诸如雅虎新闻和雅虎体育等新闻类网站交互消息的数据集。雅虎表示该数据集包含了1100亿个事件或记录。这些记录是在用户点击新闻故事或者采取一些其他的反馈动作时产生的,一共有13.5TB大小,这比以前发布的最大数据集大十多倍。

机器学习正被推广到各种各样的应用中,从自动驾驶到图像识别,再到在线推荐引擎等。但如果你不使用谷歌或者脸谱,你将很难得到大容量的真实数据集,用来测试和验证机器学习程序。计算机科学家建立模型并编写算法来引导机器学习系统,但他们需要大数据集来测试那些模型并改进它们。雅虎表示,数据是机器学习研究的生命线。然而,从传统上来看,使用大规模数据集只是大公司的机器学习研究者和数据科学家的特权,对大多数学术界的研究者来说是可望而不可及的。

用户数据可以从雅虎实验室的Webscope数据共享项目下载该数据集,这是一个针对非商业用途的匿名数据库。该数据集是在用户与雅虎新闻、体育、金融、影视和地产等的交互中形成的。数据是2015年前四个多月中从超过两千万雅虎用户收集到的。除了交互数据,还包括分类的人口统计信息,如部分用户的年龄范围和性别等。发布的数据还包括相关新闻文章的标题、摘要和关键词等。

雅虎表示,以前的最大数据集是由在线营销公司Criteo于去年发布的,大约有1TB大小,包含了40亿个事件。雅虎还表示它的目标是为学术研究者创造用武之地,这些研究者通常更擅长从网络上获取资源,很少求助于公司同行。但真实数据的缺乏会使他们无计可施。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-02-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯社交用户体验设计

如何快速有效的发散思维

1093
来自专栏喔家ArchiSelf

老曹眼中的面向数据架构

数据是系统的核心,在面向服务的架构之外,也可以考虑一下面向数据的架构方式。面向数据的服务架构需要支持多数据源异构,支持动态数据和静态数据,既支持公有云部署又支持...

564
来自专栏数据科学与人工智能

【数据分析】创建定性用户画像

在产品研发过程中,确定明确的目标用户至关重要。不同类型的用户往往有不同甚至相冲突的需求,我们不可能做出一个满足所有用户的产品。   为了让团队成员在研发过程...

2329
来自专栏互联网数据官iCDO

如何利用有限的转化数据制定明智的付费搜索竞价策略

严小鳙、朱玉雪,iCDO翻译志愿者。 前言:专栏作家Mark Ballard接下来将带我们了解,在制定AdWords关键词竞价策略时,如何通过统计学原理来支持...

1937
来自专栏云计算D1net

关于混合云,很多人都会有这些误解

云计算的兴起和任何趋势化的领域一样,都会不可避免地出现相当多的炒作以及混淆视听的噪声。 混合云自然也不例外,这导致人们对云的混合方法也产生了各种各样的误解。为了...

3266
来自专栏华章科技

高效能数据分析的七个习惯

如果你都不能向一个5岁的小孩解释清楚,那么你将很难将你的产品卖给其他人。产品数据分析的重点不是分析,别误会,你还是需要分析,但是它的故事和基于数据的推荐真的很重...

632
来自专栏大数据文摘

为什么大数据应用需要敏捷?敏捷大数据方法论

1354
来自专栏达摩兵的技术空间

我是如何学习前端的

随着前端的大热,越来越多的从业者选择入门前端,进阶,以及后续可能成为大神。但是很多人可能是出于某个发展的瓶颈阶段,不知道下一步应该学些什么,应该如何检验自己的能...

1423
来自专栏CSDN技术头条

【BDTC 2016】专访中兴飞流吕阿斌、郑龙:Yita,基于数据流的大数据计算引擎

在此次大会的大数据分析与生态系统论坛上,中兴飞流信息科技有限公司CTO郑龙发表了“Yita:基于数据流的大数据计算引擎”的演讲,阐述了数据流对于大数据的影响,以...

2238
来自专栏机器人网

采用FPGA,机器人专用运动规划芯片问世

让机器人在物理世界中安全地移动是件棘手的事情。工业机器人是强大的产品,但有可能出现完全粉碎人类的意外,并且,用机器人视觉和足够的大脑来避开障碍成本非常昂贵,还会...

37011

扫码关注云+社区