前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >史上最大机器学习数据集,雅虎对外开放了

史上最大机器学习数据集,雅虎对外开放了

作者头像
我是攻城师
发布2018-05-14 15:14:38
1.3K0
发布2018-05-14 15:14:38
举报
文章被收录于专栏:我是攻城师

【导读】:数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。2016年1月14日,雅虎实验室对外发布了发布史上最大机器学习数据集,达 13.5 TB。 数据集主页:http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75。下面是对雅虎实验室官博文章的翻译。 数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。 雅虎实验室的科学家们长期浸淫于面向顾客产品的大规模机器学习问题研究。这使得我们在诸如搜索排名、计算广告、信息检索以及核机器学习等领域进行深入思考。对外部研究团体来说,外部研究团体的兴趣一个关键方面是新算法和方法的应用,对产品买卖和从真实产品收集的大规模数据集。 今天,我们骄傲地宣布向研究团体公开发布史上最大机器学习数据集。该数据集存有海量信息,记录了2015年2月至5月间2千万用户约1100 亿个事件(13.5TB 未压缩)的新闻项目交互数据。 「雅虎新闻种子数据集」是一个基于若干雅虎产品匿名用户交互新闻种子样本,包括雅虎主页、雅虎新闻、雅虎体育、雅虎财经、雅虎电影和雅虎房产。

雅虎主页上的新闻种子

我们的目标是促进大规模机器学习和推荐系统领域的独立研究,为业界和学术研究领域提供帮助平台。数据集作为雅虎 Labs Webscope数据共享计划的组成部分,该计划是由非商用匿名用户数据组成的科学实用数据集的引用库。 除了交互数据,我们还提供匿名用户的分类人口统计信息(年龄段、性别和泛地理数据)子集。在项目方面,我们发布标题、评论和相关新闻文章的关键词组。交互数据标记当地时间信息,并且包含用户访问新闻种子设备的部分信息,新闻种子容许上下文推荐和文本数据挖掘等吸睛业务。 雅虎实验室的个性化科学团队在全维度雅虎新闻种子数据集有许多有趣的作为,这点化了在行为模型、推荐系统、大尺度和分布式机器学习、排名、在线算法、内容建模以及时序挖掘等领域的一些引人注目的思想(例如《鸟类、应用程序和用户:可变尺度因式分解机和科学驱动产品和个性化:超越点击》)。 我们希望发布这个数据能启迪研究者、数据科学家以及机器学习界的发烧友,并用扩展的“真实世界”数据集帮助他们验证模型。我们坚信该数据集能成为大尺度机器学习和推荐系统的标杆,期盼来自我们数据应用团体的佳音。 2016年(大规模)机器学习快乐! 关于我们处理用户隐私的说明:我们的用户每时每刻都置信于我们,我们努力赢得这份信任。我们积极地保护用户隐私,负责任地、透明地使用和保护用户个人信息。因此,作为该计划的一部分,我们业已将发布的数据集匿名化。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-02-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我是攻城师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
联邦学习
联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档