首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第一本 AI 写的书面世,狂啃53000篇论文写成

近日学术出版商Springer Nature公布了第一本使用机器学习生成的研究书籍《锂离子电池: 机器生成的当前研究摘要》,它概述了锂离子电池领域的最新研究成果。

Springer Nature和法兰克福的歌德大学共同开发了机器学习算法Beta Write,它使用的是基于相似性的聚类分析,将海量的源文档排列成连贯的章节,然后创建文章的简洁摘要。同时,将文章内部加入超链接,这样利于读者进一步阅读原始的文章。而 AI 这种创新化的结构化摘录成书,有利于研究人员更高效地管理海量信息,以及人们从海量内容里快速选择、使用和处理相关领域的文档。确切来说,它其实是该学科里面大量研究文章的摘要合集。

但摘要并不是你想的那么简单,这本书是由机器学习算法总结了2016年到2018年三年所发表的53000多篇关于锂电子电池的研究论文,找出150多篇权威研究论文,并将这些论文的摘要进行集合,同时将引用的文章链接附在摘要后,帮助读者进一步阅读原始的文章。

提取海量文本中高质量的内容形成连贯的摘要,对于人类科学家来说是一个巨大的挑战,需要大量的时间和精力阅读成千上万的论文。而这本书中的摘要由机器学习通过算法完成,AI 的自动扫描和总结输出,让科学家们把更多时间用在重要的研究上。

几十年来,机器一直在学习人类语言的微妙之处,虽然深度学习算法不断在更新技术,但就算世界上最能写的 AI 也无法表达出人的独特思想,它生成的文本是根据数据形成的统一的公式化内容,无法像人类一样创造更具连贯性和平衡性的内容。当翻阅AI文本时,不难发现其中会有很多乱码和不连贯的句子。这项技术的关键难度在于能否生成适合人类阅读习惯,表意清晰的AI文本。

卡内基梅隆大学人机交互研究的副教授Jeff Bigham认为,把高质量的文本连贯的输入系统,再由系统生成具有可读性的摘要并不是困难的事情,关键难点在于机器学习算法是否具备自动提炼摘要的能力。此外,AI生成文本还涉及到伦理方面的问题。比如:谁是机器生成内容的创始人?算法的开发者能被视为生成作品的作者吗?谁对机器生成的内容负责?

机器学习算法发展到今天所做的更多的还是提出问题,而不是解决问题。新技术出现带来的是一系列新技术本身发展和其他相关的引申问题。目前机器学习算法已经成功地开发出了第一个可以生成书籍的原型,但它对大型文本语料库的精炼摘要仍然不完善,解释文本、句法和短语关联有时看起来仍然很笨拙。虽然为了凸显机器生产内容这一技术的突破,研究人员不会手动润色或复制编辑任何文本,但是这也同时表明了机器学习还有很长的路要走。

来源:TechCrunch、TheVergeA、SpringerNature

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190415A05SXI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券