雅虎发布大量有助于研究机器学习的数据

2016年1月14日,计算机世界网发布消息,称雅虎发布了大量数据,用来帮助科研人员开展机器学习的研究工作。

雅虎发布的针对机器学习科学家的数据集成为了新的“有史以来最大的”数据集。这是一个用来收集匿名用户与诸如雅虎新闻和雅虎体育等新闻类网站交互消息的数据集。雅虎表示该数据集包含了1100亿个事件或记录。这些记录是在用户点击新闻故事或者采取一些其他的反馈动作时产生的,一共有13.5TB大小,这比以前发布的最大数据集大十多倍。

机器学习正被推广到各种各样的应用中,从自动驾驶到图像识别,再到在线推荐引擎等。但如果你不使用谷歌或者脸谱,你将很难得到大容量的真实数据集,用来测试和验证机器学习程序。计算机科学家建立模型并编写算法来引导机器学习系统,但他们需要大数据集来测试那些模型并改进它们。雅虎表示,数据是机器学习研究的生命线。然而,从传统上来看,使用大规模数据集只是大公司的机器学习研究者和数据科学家的特权,对大多数学术界的研究者来说是可望而不可及的。

用户数据可以从雅虎实验室的Webscope数据共享项目下载该数据集,这是一个针对非商业用途的匿名数据库。该数据集是在用户与雅虎新闻、体育、金融、影视和地产等的交互中形成的。数据是2015年前四个多月中从超过两千万雅虎用户收集到的。除了交互数据,还包括分类的人口统计信息,如部分用户的年龄范围和性别等。发布的数据还包括相关新闻文章的标题、摘要和关键词等。

雅虎表示,以前的最大数据集是由在线营销公司Criteo于去年发布的,大约有1TB大小,包含了40亿个事件。雅虎还表示它的目标是为学术研究者创造用武之地,这些研究者通常更擅长从网络上获取资源,很少求助于公司同行。但真实数据的缺乏会使他们无计可施。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-02-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

让机器看懂并理解,Facebook人工智能研究进展

14310
来自专栏PaddlePaddle

知名深度学习框架的典型应用案例一览

TensorFlow在谷歌系的产品中应用非常多,比如Gmail, Google Play Recommendation, Search, Translate, ...

995
来自专栏镁客网

Facebook推出人工智能引擎DeepText,让机器更好的理解语言和内容

1554
来自专栏BestSDK

火爆的机器学习和人工智能,为何在金融业四处碰壁?

在2008年金融危机期间,银行业认识到,他们的机器学习算法是基于有缺陷的假设。 因此,金融体系监管机构决定需要额外的控制措施,并引入了对银行和保险公司进行“模式...

3356
来自专栏数据科学与人工智能

机器学习与大数据风控

一个普遍的看法是,机器学习等人工智能技术会最先在金融领域落地。金融行业是最早实现信息化的行业,有丰富的数据积累,且对于用技术提升效率有更多的需求。 现在也有越来...

3808
来自专栏大数据文摘

金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?

1172
来自专栏PPV课数据科学社区

重磅 | Facebook机器学习应用负责人J.Candela:如何将人工智能技术应用于产品

Joaquin Quiñonero Candela是Facebook 机器学习应用团队的负责人。他曾在微软剑桥研究院工作,还是微软Bing团队的一员。Joaq...

3405
来自专栏AI派

解读宽客和量化交易的世界

本文为带你走入宽客和量化交易的世界,让你对宽客这类人群以及量化交易有一个相对清晰的了解。

3519
来自专栏人人都是极客

【视频教学】如何加速深度学习架构

有些人会觉得现在市场上有很多深度学习引擎的框架,比如tensorflow, pytorch, caffe等,为什么还需要加速呢,很简单,虽然深度学习的技术发展火...

891
来自专栏智能计算时代

数据科学难题,怎么解释到底什么是数据科学

网络上没有任何文章比较和对比数据科学术语。所有类型的人都写了各种各样的文章,将他们的意见传达给任何愿意倾听的人。这几乎是压倒性的。

1063

扫码关注云+社区