用《圣经》做训练数据集，达特茅斯学院完美打造语言风格转换工具

新智元

发布于 2018-12-06 11:22:13

7210

文章被收录于专栏：新智元新智元

新智元报道

来源：techxplore

编辑：大明

为了寻找改进计算机文本翻译质量的灵感，达特茅斯学院的研究人员向《圣经》寻求帮助和指导。结果发现，使用各种版本的《圣经》训练的算法可以将书面作品转换成针对不同受众的不同风格的译文。

目前市面上可用的多语种互译的网络工具有很多。但行文风格和样式转换工具，即文本的语种相同，但转换行文风格的工具出现的速度则要慢得多。在某种程度上讲，由于难以获得所需的大量训练数据，开发这类转换工具的研究遭遇了困难。因此，研究团队想到在《圣经》中汲取灵感。

来自达特茅斯学院的研究团队发现，《圣经》除了为遍布全球的许多人提供精神上的指引之外，还能提供一个“大型的、以前尚未开发的对齐平行文本数据集”。《圣经》每个版本都包含超过31000节经文，研究人员用这些经文为机器学习训练集生成了超过150万个源经文和目标经文的专门配对。

该研究论文已发表在Royal Society Open Science 期刊上。文中表示，这不是首个为文字风格转换而创建的并行数据集。但却是第一个使用《圣经》的数据集。过去这类数据集使用的其他文本，比如莎士比亚作品、维基百科条目之类，所能提供的数据集要么比现在小得多，要么不适合学习风格转换的任务。

“英文版《圣经》有许多不同的行文风格，使其成为风格转换的完美源文本。”达特茅斯大学学生、本论文的第一作者Keith Carlson说。

由于《圣经》的文本已经全面索引化，对不同版本的《圣经》文本的组织是可预测的，消除了用自动化方式匹配相同文本可能引起的对齐错误的风险。

“圣经是一个'神圣的'数据集，可以用来研究这项任务，”达特茅斯计算机科学教授丹尼尔·洛克莫尔说。 “几个世纪以来，人类一直在执行组织圣经文本的任务，我们的信仰不可能基于不太可靠的对齐算法。”

为了定义研究的“风格”，研究人员参考了句子长度、被动或主动语音的使用，以及可能导致文本具有不同程度的简洁或形式的用词选择。

根据这项研究的结果：“不同的措辞可能会传达不同程度的礼貌度或对读者的熟悉程度，显示关于作者的不同文化信息，使文本对某些人群更容易理解。”

该团队使用了34种风格独特的圣经版本，其语言复杂程度从“詹姆斯国王版”到“基础英语圣经”。研究人员使用这些文本作为两种算法的输入，一种是名为“摩西”的统计机器翻译系统，另一种是常用于机器翻译的神经网络框架“Seq2Seq”。

虽然研究团队使用了不同版本的《圣经》来训练计算机代码，但最终可以开发出能够为不同受众转换任何书面文本风格的系统。例如可以从“Moby Dick”中选择英语，并将其风格转换成适合年轻读者、非英语母语人士或其他多种受众团体中的不同版本。

“文本简化只是一种特定类型的风格转换。更广泛地说，我们开发的系统旨在生成与原文具有相同含义的文本，但会用不同的文字进行表述。”卡尔森说。

达特茅斯学院在计算机科学领域有着悠久的创新历史。 “人工智能”（AI）一词最初就是在1956年达特茅斯学院召开AI研究学科的会议期间诞生的。该校其他相关研究还包括BASIC语言的设计，这是第一个通用和可访问的编程语言，以及为现代操作系统做出贡献的“达特茅斯时间共享”系统。

参考链接：

https://techxplore.com/news/2018-10-good-bible-algorithms.html

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-10-31，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度