Nature最新报道：人工智能可以帮助你写下一篇论文吗？

文章来源：企鹅号 - 科学的历程

大型语言模型可以起草摘要或建议研究方向，但这些人工智能工具仍在发展中。

Matthew Hutson

您知道文本自动完成功能让您的智能手机使用起来非常方便（有时令人沮丧）吗？好吧，现在基于相同想法的工具已经发展到可以帮助研究人员分析和撰写科学论文、生成代码和集思广益。

这些工具来自自然语言处理 (NLP)，这是一个人工智能领域，旨在帮助计算机“理解”甚至产生人类可读的文本。随着这些被称为大型语言模型 (LLM) 的工具不断发展，不仅已成为研究的对象而且成为研究的助手。

LLM 是经过大量文本训练的神经网络，可以处理文本，特别是生成语言。位于旧金山的研究实验室 OpenAI 在 2020 年创建了最著名的 LLM，GPT-3，采用的方法是训练一个网络来根据之前的内容预测下一段文本。在 Twitter 和其他地方，研究人员对它生成的令人毛骨悚然的类似人类的文字表示惊讶。现在，通过OpenAI 编程接口，任何人都可以使用它根据提示生成文本。（每处理 750 个字的价格约为 0.0004 美元，这是一种结合阅读提示和编写回复的措施。）

“我想我几乎每天都在使用 GPT-3，”雷克雅未克冰岛大学的计算机科学家 Hafsteinn Einarsson 说。他用它来生成关于他论文摘要的反馈。在 6 月份的一次会议上， Einarsson 分享了一个例子中，算法的一些建议是无用的，如建议他添加已经包含在他的文本中的信息。但其他的建议更有帮助，例如“在摘要的开头使所研究问题更加明确”。Einarsson 说，很难看出自己手稿中的缺陷。“要么你必须在上面花费两个星期，要么你可以让别人看看。而那个“其他人”可以是 GPT-3。”

组织思考

一些研究人员使用 LLM 来生成论文标题或使文本更具可读性。加州斯坦福大学计算机科学博士生 Mina Lee 给出了 GPT-3 提示，例如“使用这些关键字，生成论文的标题”。为了重写麻烦的部分，她使用了以色列特拉维夫 AI21 Labs 的人工智能写作助手 Wordtune。“我写了一段，基本上就像是在做大脑转存储，”她说。“我只需点击‘重写’，直到找到我喜欢的更简洁的版本。”

纽约布鲁克林科技初创公司 Scite 的计算机科学家 Domenic Rosati 使用名为 Generate 的 LLM来组织他的思维。由加拿大多伦多的 NLP 公司 Cohere 开发的Generate 的行为很像 GPT-3。“我记笔记，或者只是涂鸦和思考，然后我说'总结一下'，或者'把它变成摘要'，”罗萨蒂说。“作为合成工具，它对我真的很有帮助。”

语言模型甚至可以帮助进行实验设计。在一个项目中，Einarsson 使用 Pictionary 游戏作为从参与者那里收集语言数据的一种方式。鉴于游戏的描述，GPT-3 建议他可以尝试的游戏变体。从理论上讲，研究人员还可以要求对实验方案进行新的尝试。至于李，她让 GPT-3 集思广益，将男友介绍给父母时要做的事情。它建议去海边的一家餐馆。

编写代码

OpenAI 研究人员针对各种各样的文本对 GPT-3 进行了训练，包括书籍、新闻故事、维基百科条目和软件代码。后来，团队注意到 GPT-3 可以完成代码片段，就像它可以处理其他文本一样。研究人员创建了一个名为 Codex 的算法的微调版本，在来自代码共享平台 GitHub1的超过 150 GB 的文本上对其进行训练。GitHub 现在已将 Codex 集成到一项名为 Copilot 的服务中，该服务会在人们键入时提出建议代码。

华盛顿西雅图艾伦人工智能研究所（也称为 AI2）的计算机科学家 Luca Soldaini 表示，他们的办公室至少有一半使用 Copilot。Soldaini 说，它最适合重复编程，并引用了一个涉及编写样板代码来处理 PDF 的项目。“它只是脱口而出，就像，'我希望这就是你想要的'。” 但有时不是这样的。因此，Soldaini 说他们谨慎地将 Copilot 仅用于他们熟悉的语言和库，以便发现问题。

文献检索

语言模型最成熟的应用可能涉及搜索和总结文献。AI2 的 Semantic Scholar 搜索引擎——涵盖大约 2 亿篇论文，主要来自生物医学和计算机科学——使用称为 TLDR 的语言模型（太长的短；未阅读）提供论文的推文长度描述。TLDR 源自社交媒体平台 Facebook 的研究人员提出的称为 BART 的早期模型，该模型已根据人工编写的摘要进行了微调。（按照今天的标准，TLDR 并不是一个大型语言模型，因为它只包含大约 4 亿个参数。最大的 GPT-3 版本包含 1750 亿个。）

TLDR 也出现在 AI2 的语义阅读器中，这是一个增强科学论文的应用程序。当用户在 Semantic Reader 中单击文本引用时，会弹出一个框，其中包含包含 TLDR 摘要的信息。“我们的想法是将人工智能直接应用到阅读体验中，”Semantic Scholar 的首席科学家 Dan Weld 说。

当语言模型生成文本摘要时，通常会出现“人们善意地称之为幻觉存在问题”，韦尔德说，“但实际上语言模型完全是在编造或撒谎。” TLDR 在真实性测试2中表现相对较好——论文作者 TLDR 被要求描述其准确性为 2.5 分（满分 3 分）。Weld 说这部分是因为摘要只有大约 20 个字长，部分是因为算法拒绝了那些介绍未出现在全文中的生僻词。

在搜索工具方面，Elicit 于 2021 年从位于旧金山的机器学习非营利组织 Ought 首次亮相。问引出一个问题，例如“正念对决策的影响是什么？” 它输出一个包含十篇论文的表格。用户可以要求软件在列中填写摘要和元数据等内容，以及有关研究参与者、方法和结果的信息。Elicit 使用包括 GPT-3 在内的工具从论文中提取或生成这些信息。

马里兰大学帕克分校的 Joel Chan 研究人机交互，每当他开始一个项目时都会使用 Elicit。“当我不知道用于搜索的正确语言时，它非常有效，”他说。斯德哥尔摩卡罗林斯卡学院的神经科学家 Gustav Nilsonne 使用 Elicit 来查找包含他可以添加到汇总分析中的数据的论文。他说，该工具建议了他在其他搜索中没有找到的论文。

发展中的模型

AI2 的原型为 LLM 提供了一种未来感。有时研究人员在阅读科学摘要后有问题，但没有时间阅读全文。AI2 的一个团队开发了一种可以回答此类问题的工具，至少在 NLP 领域是这样。它首先要求研究人员阅读 NLP 论文的摘要，然后提出有关它们的问题（例如“分析了哪五个对话属性？”）。接下来，该团队要求其他研究人员在阅读完论文全文后回答这些问题3。AI2 训练了其 Longformer 语言模型的一个版本——它可以提取一篇完整的论文，而不仅仅是其他模型接受的几百个单词——在结果数据集上生成关于其他论文的不同问题的答案4。

一个名为 ACCoRD 的模型可以为 150 个与 NLP 相关的科学概念生成定义和类比，而 MS^2 是一个包含 470,000 个医学文档和 20,000 个多文档摘要的数据集，用于微调 BART 以允许研究人员提出问题和一组文档并生成一个简短的元分析摘要。

此外，还有文本生成之外的应用程序。2019 年，AI2 在 Semantic Scholar 论文上对谷歌 2018 年创建的语言模型 BERT 进行了微调，创建了具有 1.1 亿个参数的 SciBERT。Scite 使用人工智能创建了一个科学搜索引擎，进一步微调了 SciBERT，以便当其搜索引擎列出引用目标论文的论文时，将它们归类为支持、对比或以其他方式提及该论文。罗萨蒂说，这种细微差别有助于人们识别文献中的局限性或差距。

AI2 的 SPECTER 模型也基于 SciBERT，将论文缩减为紧凑的数学表示。Weld 说，会议组织者使用 SPECTER 将提交的论文与同行评审员进行匹配，Semantic Scholar 用它根据用户的图书馆推荐论文。

耶路撒冷希伯来大学和 AI2 的计算机科学家 Tom Hope 表示，AI2 的其他研究项目具有微调的语言模型，以识别有效的药物组合、基因与疾病之间的联系，以及 COVID-19 研究中的科学挑战和方向。

但是语言模型可以允许更深入的洞察甚至发现吗？5 月，Hope 和 Weld与微软首席科学官 Eric Horvitz 和其他人共同撰写了一篇评论5 ，列出了实现这一目标的挑战，包括教授模型以“[推断]重新组合两个概念的结果”。“生成一张飞入太空的猫的图片是一回事，”Hope 说，他指的是 OpenAI 的 DALL·E 2 图像生成模型。但是“我们将如何从这个转变为结合抽象的、高度复杂的科学概念呢？”

这是一个悬而未决的问题。但是大型语言模型已经对研究产生了切实的影响。“在某些时候，”Einarsson 说，“如果人们不使用这些大型语言模型，他们就会错失良机。”

Nature611, 192-193 (2022)

References

Chen, M.et al.Preprint at https://arxiv.org/abs/2107.03374 (2021).

Cachola, I., Lo, K., Cohan, A. & Weld, D. S. InFindings of the Association for Computational Linguistics4766–4777 (2020).

Dasigi, P.et al.InProc. 2021 Conference of the North American Chapter of the Association of Computational Linguistics4599–4610 (2021).

Beltagy, I., Peters, M. E. & Cohan, A. Preprint at https://arxiv.org/abs/2004.05150 (2020).

Hope, T.et al.Preprint at https://arxiv.org/abs/2205.02007 (2022).

发表于: 2022-11-072022-11-07 17:29:00
原文链接：https://kuaibao.qq.com/s/20221107A06HI600?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Nature最新报道：人工智能可以帮助你写下一篇论文吗？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐