哈佛博士用一万篇Nature论文训练GPT-2写摘要，网友直呼生成的太假了！

新智元

发布于 2021-05-28 10:41:55

9700

发布于 2021-05-28 10:41:55

文章被收录于专栏：新智元

新智元报道

来源：Nature

编辑：LRS

【新智元导读】Reddit上又一个论文自动生成的帖子火了！哈佛一个博士用一万篇Nature论文训练GPT-2模型来自动生成摘要，还发布了一个小游戏Engima，允许用户判断两个摘要哪个是生成的，有网友觉得一眼假，还有网友认为生物领域根本看不懂！

哈佛一个小哥用GPT-2模型训练了一万篇Nature论文来写论文的摘要。

根据这个模型生成的摘要，开发了一个小游戏Enigma，让用户来判断哪个是真实的摘要，哪个是生成的。

这个字谜游戏的名字取自恩尼格玛密码机，它是对二战时期纳粹德国使用的一系列相似的转子机械加解密机器的统称。

游戏的模式分为Easy和Hard。

例如下面这个Hard例子，左面的是真实的论文摘要，而右面的则是生成的，你看出来了吗？

由于论文涉及的领域大多数是Nature相关的，区分真实和虚假依赖于领域知识，而GPT-2生成的文本大多在逻辑上可能会有一些问题，所以对于行外人来说这个游戏大多等于随机猜。

切换到Easy模式也并没有觉得变简单。。

作者在网页中也说明，Hard模式使用更大的模型，生成的摘要也更加有信服度。

有Reddit网友也表示，希望有一些机器学习相关的摘要，生物领域实在是看不懂！网友表示赞同，熟悉这个领域的太容易看出来是假的了！

还有网友说这游戏太离谱了，越像胡说八道的，越是学术界写出来的论文：

这个小游戏的作者是Stefan Zukin，从哈佛大学毕业的博士生，主要研究领域为化学生物。

论文自动生成

早在2005年，论文自动生成器SCIgen就开始研究这个课题，它能够自动生成无意义的英文计算机科学研究论文，并且包含图片、表格、流程图和参考文献等。这个程序使用用户定制的上下文无关文法来生成论文的各类组成元素。

在当时还没有强大的深度学习模型，只能依靠手工规则。

SCIgen由美国麻省理工学院计算机科学与人工智能实验室的三位研究生杰里米·斯特里布林（Jeremy Stribling）、马克斯·克伦（Max Krohn）和达纳·阿瓜约（Dan Aguayo）编写，源代码以GPL协议发布。

2005年，SCIgen的编写者们将他们使用这个工具生成的Rooter: A Methodology for the Typical Unification of Access Points and Redundancy一文投往该年度的World Multiconference on Systemics, Cybernetics and Informatics，WMSCI，被成功录用为未经同行评审文章，并且作者被邀请到会议上发言。

后来，伦斯勒理工学院、华盛顿大学等的研究人员开发的 PaperRobot，提供从产生 idea、写摘要、写结论到写 “未来研究” 的一站式服务！甚至它还能为你写出下一篇论文的题目，从此论文无忧。

PaperRobot: Incremental Draft Generation of Scientific Ideas 这篇论文在ACL2019一发表，就引起了大量关注。