2016年1月14日,计算机世界网发布消息,称雅虎发布了大量数据,用来帮助科研人员开展机器学习的研究工作。
雅虎发布的针对机器学习科学家的数据集成为了新的“有史以来最大的”数据集。这是一个用来收集匿名用户与诸如雅虎新闻和雅虎体育等新闻类网站交互消息的数据集。雅虎表示该数据集包含了1100亿个事件或记录。这些记录是在用户点击新闻故事或者采取一些其他的反馈动作时产生的,一共有13.5TB大小,这比以前发布的最大数据集大十多倍。
机器学习正被推广到各种各样的应用中,从自动驾驶到图像识别,再到在线推荐引擎等。但如果你不使用谷歌或者脸谱,你将很难得到大容量的真实数据集,用来测试和验证机器学习程序。计算机科学家建立模型并编写算法来引导机器学习系统,但他们需要大数据集来测试那些模型并改进它们。雅虎表示,数据是机器学习研究的生命线。然而,从传统上来看,使用大规模数据集只是大公司的机器学习研究者和数据科学家的特权,对大多数学术界的研究者来说是可望而不可及的。
用户数据可以从雅虎实验室的Webscope数据共享项目下载该数据集,这是一个针对非商业用途的匿名数据库。该数据集是在用户与雅虎新闻、体育、金融、影视和地产等的交互中形成的。数据是2015年前四个多月中从超过两千万雅虎用户收集到的。除了交互数据,还包括分类的人口统计信息,如部分用户的年龄范围和性别等。发布的数据还包括相关新闻文章的标题、摘要和关键词等。
雅虎表示,以前的最大数据集是由在线营销公司Criteo于去年发布的,大约有1TB大小,包含了40亿个事件。雅虎还表示它的目标是为学术研究者创造用武之地,这些研究者通常更擅长从网络上获取资源,很少求助于公司同行。但真实数据的缺乏会使他们无计可施。