哈佛用NBA比赛数据生成报道,评测各模型效果 | 数据集+论文+代码

安妮 编译整理 量子位出品 | 公众号 QbitAI

近日,哈佛大学的三名研究人员公开发表论文《Challenges of Data-to-Document Generation》,利用NBA的比赛结果数据尝试生成描述性文本,并测试了现有的神经网络模型生成文本效果如何。

这篇论文由Sam Wiseman、Stuart M. Shieber和Alexander M. Rush三人共同完成。Wiseman是工程和应用科学学院的博士生,Shieber和Rush同是是哈佛大学的NLP专家。

从左到右依次为Wiseman、Shieber和Rush

论文摘要

神经模型已经在小型数据库生成短描述文本问题上取得了重大进展。在这篇文章中,我们用稍微复杂的数据库测试神经模型数据转文本的能力,探究现有方法在这个任务中的有效性。

首先,我们引入了一个记载了大量数据的语料库,里面也包含与数据匹配的描述性文档。随后,我们创建了一套用来分析表现结果的评估方法,并用当前的神经模型生成方法获取基线观测数据。

结果表明,这些模型可以生成流畅的文本,但看起来不像人类写的。此外,模板化的基线在某些指标上的表现会超过神经模型。

测试数据集

研究人员用两个数据集测试模型性能。

第一个数据集是来自体育网站ROTOWIRE的4853篇NBA比赛报道,包含NBA在2014年初到2017年3月之间的比赛。这个数据集被随机分为训练、验证和测试集,分别包含3398、727和728条报道。

第二个数据集来自体育网站SBNation,涵盖了10903篇从2006年底到2017年3月之间的报道。其中训练、验证和测试集中分别有7633、1635和1635条报道。

下面这张表格展示了数据集中可能被记录的信息——

可能被记录的信息

测试结果

研究人员从ROTOWIRE数据库中抽取了以下数据,里面同时包含了比分数据和球员信息,让模型转化成文本。

根据上面的数据,神经模型生成了以下文字内容。虽然不如新闻报道有文采,但看起来还算流利。

扩展资料

最后,附送研究详细信息——

Paper地址:

https://arxiv.org/pdf/1707.08052.pdf

Dataset地址:

https://github.com/harvardnlp/boxscore-data

Code地址:

https://github.com/harvardnlp/data2text

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-07-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | Fashion-MNIST:替代MNIST手写数字集的图像数据集

机器之心转载 公众号:PaperWeekly 作者:肖涵 FashionMNIST 是一个替代 MNIST 手写数字集 [1] 的图像数据集。 它是由 Zala...

46590
来自专栏机器学习算法与Python学习

由你定义吃鸡风格!CycleGAN,你的自定义风格转换大师

如果你是一名玩家,你一定听说过现在两场疯狂流行的大战「大逃杀」,堡垒之夜和绝地求生。他们是两个非常相似的游戏,其中有 100 个玩家在一个小岛上出没,直到剩下一...

8000
来自专栏大数据文摘

科技网红Siraj最新油管视频:如何用4分钟搭建神经网络

20880
来自专栏量子位

Facebook开源移动端深度学习加速框架,比TensorFlow Lite快一倍

Facebook发布了一个开源框架,叫QNNPACK,是手机端神经网络计算的加速包。

16320
来自专栏AI科技评论

学界 | 女朋友说「我想要MAC」,OpenAI帮直男get到是口红还是电脑

AI 科技评论按:语言词汇的多义性已经是一个越发让人头疼的问题。比如女生对男朋友说:「生日礼物我想要MAC」,本来心怀期待地揣测他买来的唇彩会是什么色,结果收到...

37690
来自专栏阮一峰的网络日志

TF-IDF与余弦相似性的应用(三):自动摘要

有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,...

32490
来自专栏专知

计算机视觉入门教程系列—125页带你回顾CV发展脉络

【导读】本文是计算机科学家Christoph Rasche撰写的一份计算机视觉方面的系列教程,从传统的图像处理、特征提取到近几年很热的深度神经网络,以及深度学习...

19220
来自专栏鸿的学习笔记

朴素贝叶斯学习笔记

X其实是“具有某类特征”,Y理解为“类别标签”。在最简单的二分类问题下,Y可以理解为“属于某类”标签。

9720
来自专栏人工智能头条

浅析强化学习及使用Policy Network实现自动化控制

19920
来自专栏SeanCheney的专栏

《Scikit-Learn与TensorFlow机器学习实用指南》 第16章 强化学习(下)

在二十世纪初,数学家 Andrey Markov 研究了没有记忆的随机过程,称为马尔可夫链。这样的过程具有固定数量的状态,并且在每个步骤中随机地从一个状态演化到...

10620

扫码关注云+社区

领取腾讯云代金券