用《圣经》做训练数据集,达特茅斯学院完美打造语言风格转换工具


新智元报道

来源:techxplore

编辑:大明

【新智元导读】达特茅斯学院的研究人员为了提高计算机模型对文本风格的转换能力,竟然将目光投向了《圣经》!研究表明,不同版本的《圣经》行文风格迥异,使用不同版本的《圣经》作为训练数据集,训练出的算法可以将书面文本转换成内容相同,但行文风格迥异的新文本。

为了寻找改进计算机文本翻译质量的灵感,达特茅斯学院的研究人员向《圣经》寻求帮助和指导。结果发现,使用各种版本的《圣经》训练的算法可以将书面作品转换成针对不同受众的不同风格的译文。

目前市面上可用的多语种互译的网络工具有很多。但行文风格和样式转换工具,即文本的语种相同,但转换行文风格的工具出现的速度则要慢得多。在某种程度上讲,由于难以获得所需的大量训练数据,开发这类转换工具的研究遭遇了困难。因此,研究团队想到在《圣经》中汲取灵感。

来自达特茅斯学院的研究团队发现,《圣经》除了为遍布全球的许多人提供精神上的指引之外,还能提供一个“大型的、以前尚未开发的对齐平行文本数据集”。《圣经》每个版本都包含超过31000节经文,研究人员用这些经文为机器学习训练集生成了超过150万个源经文和目标经文的专门配对。

该研究论文已发表在Royal Society Open Science 期刊上。文中表示,这不是首个为文字风格转换而创建的并行数据集。但却是第一个使用《圣经》的数据集。过去这类数据集使用的其他文本,比如莎士比亚作品、维基百科条目之类,所能提供的数据集要么比现在小得多,要么不适合学习风格转换的任务。

英文版《圣经》有许多不同的行文风格,使其成为风格转换的完美源文本。”达特茅斯大学学生、本论文的第一作者Keith Carlson说。

由于《圣经》的文本已经全面索引化,对不同版本的《圣经》文本的组织是可预测的,消除了用自动化方式匹配相同文本可能引起的对齐错误的风险。

“圣经是一个'神圣的'数据集,可以用来研究这项任务,”达特茅斯计算机科学教授丹尼尔·洛克莫尔说。 “几个世纪以来,人类一直在执行组织圣经文本的任务,我们的信仰不可能基于不太可靠的对齐算法。”

为了定义研究的“风格”,研究人员参考了句子长度、被动或主动语音的使用,以及可能导致文本具有不同程度的简洁或形式的用词选择。

根据这项研究的结果:“不同的措辞可能会传达不同程度的礼貌度或对读者的熟悉程度,显示关于作者的不同文化信息,使文本对某些人群更容易理解。”

该团队使用了34种风格独特的圣经版本,其语言复杂程度从“詹姆斯国王版”到“基础英语圣经”。研究人员使用这些文本作为两种算法的输入,一种是名为“摩西”的统计机器翻译系统,另一种是常用于机器翻译的神经网络框架“Seq2Seq”。

虽然研究团队使用了不同版本的《圣经》来训练计算机代码,但最终可以开发出能够为不同受众转换任何书面文本风格的系统。例如可以从“Moby Dick”中选择英语,并将其风格转换成适合年轻读者、非英语母语人士或其他多种受众团体中的不同版本。

“文本简化只是一种特定类型的风格转换。更广泛地说,我们开发的系统旨在生成与原文具有相同含义的文本,但会用不同的文字进行表述。”卡尔森说。

达特茅斯学院在计算机科学领域有着悠久的创新历史。 “人工智能”(AI)一词最初就是在1956年达特茅斯学院召开AI研究学科的会议期间诞生的。该校其他相关研究还包括BASIC语言的设计,这是第一个通用和可访问的编程语言,以及为现代操作系统做出贡献的“达特茅斯时间共享”系统。

参考链接:

https://techxplore.com/news/2018-10-good-bible-algorithms.html

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

【无人驾驶技术系列】光学雷达(LiDAR)在无人驾驶技术中的应用

3255
来自专栏深度学习自然语言处理

如何具体学习计算机视觉

这两年,计算机视觉似乎火了起来,计算机视觉的黄金时代真的到来了吗?生物医学、机械自动化、土木建筑等好多专业的学生都开始研究其在各自领域的应用,一个视觉交流群里三...

2203
来自专栏机器之心

习惯arXiv的今天,我们的论文应该引用预印本吗?

选自fossilsandshit 作者:Jon Tennant 机器之心编译 参与:吴攀、李泽南 不久之前,ICLR 匿名评审的方式引起了争议,参见机器之心文...

4068
来自专栏量子位

太像人手了!OpenAI用打DOTA的算法,教会了机械手“盘核桃”

在OpenAI的实验室里,它缓缓 盘着核桃 转动着一个木块。没有人告诉它该动哪根指头,驱使它的,是在模拟器里训练出来的强化学习算法。

1010
来自专栏机器之心

从冷战到深度学习:一篇图文并茂的机器翻译史

选自Vas3k.com 作者:Ilya Pestov 英语版译者:Vasily Zubarev 中文版译者:Panda 实现高质量机器翻译的梦想已经存在了很多年...

3366
来自专栏AI科技大本营的专栏

eBay数据科学家李睿:自然语言处理在eBay的技术实践

记者|谷磊 近日,在飞马网主办的“FMI人工智能&大数据高峰论坛”上,来自eBay的数据科学家李睿博士以“NLP(自然语言处理)在eBay的技术实践”为题做了主...

4569
来自专栏新智元

MIT非视线成像“透视相机”:隔墙观物、影中窥人!

2012年,MIT计算机视觉科学家安东尼奥·托拉尔巴(Antonio Torralba)在西班牙海岸度假时,发现他酒店房间墙壁上的杂散阴影似乎不是由任何东西投射...

1575
来自专栏张红林的专栏

机器学习入门书籍简介

在AIclub看到一篇机器学习入门的文章,回想自己磕磕碰碰走过的弯路,颇有感触,因此对自己从懵懂到稍稍入门过程中看过的教程做一个简单的介绍,希望帮到后来人。

4.5K3
来自专栏专知

【干货】追本溯源:5种受生物启发的人工智能方法

【导读】1月15日,机器学习研究人员Luke James(简介见文末)发布一篇博文,介绍了5种受到生物启发的人工智能方法,包括人工神经网络(人脑神经元)、遗传算...

3917
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(1)——"被打"与"北大"的关联

小时候喜欢读趣味数理化,所以久有一个小心愿,写一组趣味数据挖掘的科普博文。要把数据挖掘的一些概念讲得通俗有趣,需要好的例子,正搜寻中,一个有趣的、适合解...

3576

扫码关注云+社区

领取腾讯云代金券