用圣经来训练算法,针对不同受众将文字转换为不同风格

编译:chux

出品:ATYUN订阅号

为了寻找提高计算机文本翻译能力的灵感,达特茅斯学院的研究人员求助于圣经。其结果是对不同版本的圣经文本进行训练的算法,可以将书面语言转换为不同的风格,以适应不同的受众。

在像英语和西班牙语这样的语言之间翻译文本的互联网工具是广泛可用的。创建样式转换工具(将文本保持在相同的语言中,但转换样式)的出现要慢得多。在一定程度上,开发翻译人员的努力因难以获得所需的大量数据而受阻。这就是研究小组求助于圣经的原因。

达特茅斯领导的团队还把圣经视为“一个大型的,以前尚未开发的对齐平行文本数据集”。除了提供无限的灵感之外,圣经的每个版本都包含超过31,000节经文,研究人员用这些经文为机器学习训练集生成超过150万个源和目标经文的独特配对。

根据发表在Royal Society Open Science杂志上的研究表明,这不是第一个为风格翻译创建的并行数据集。但这是使用圣经的先例。过去使用的其他文本,从莎士比亚到维基百科条目,提供的数据集要么小得多,要么不适合学习风格翻译的任务。

“英语圣经有许多不同的书面风格,使其成为风格翻译的完美源文本,”达特茅斯博士生,该研究论文的主要作者Keith Carlson表示。

一个额外的好处是,圣经已经通过书,章节和节数的一致编入索引。跨版本的文本的可预测组织消除了可能由自动匹配相同文本的不同版本而引起的对齐错误风险。

“圣经是一个神圣的数据集,可以用来研究这项任务,”达特茅斯计算机科学教授Daniel Rockmore表示,“几个世纪以来,人类一直在执行组织圣经文本的任务,因此我们不必将信仰置于不太可靠的对齐算法中。”

为了定义研究的风格,研究人员参考句子长度,被动或主动语音的使用,以及可能导致文本具有不同程度的简单性或形式的单词选择。不同的措辞可能会传达不同程度的礼貌或对读者的熟悉程度,显示关于作者的不同文化信息,某些人群更容易理解。

该团队使用了34种风格独特的圣经版本,其语言复杂程度从“King James Version”到“Bible in Basic English”。这些文本被输入两种算法,一种称为“摩西”的统计机器翻译系统和一种常用于机器翻译的神经网络框架Seq2Seq。

虽然使用了不同版本的圣经来训练计算机代码,但最终可以开发出能够为不同受众翻译任何书面文本风格的系统。例如,风格翻译可以从“Moby Dick”中选择英语,并将其翻译成适合年轻读者,非英语母语人士或各种受众中的任何一种的不同版本。

Carlson表示,“文本简化只是一种特定类型的风格转移。更广泛地说,我们的系统旨在生成与原文具有相同含义的文本,但用不同的文字进行。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-10-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

AI摩尔定律继续超速?2028年,1美元能买200GFLOPS计算力!

【新智元导读】摩尔定律不断给人这种感觉:就是在此时此刻,我们正处于人工智能行业独一无二的大变革时期。然而,只要计算力的增长继续遵循指数级的价格-性能曲线,那么未...

1133
来自专栏机器之心

资源 | 《Deep Learning》中文印前版开放下载,让我们向译者致敬

选自GitHub 机器之心整理 参与:蒋思源 《Deep Learning》中文版(印前版)正式发布。这本书适合于各类读者,尤其是学习机器学习的本科或研究生、深...

3807
来自专栏AI科技大本营的专栏

实战干货 | 这位成功转型机器学习的老炮,想把他多年的经验分享给你

这个年代,不怕你是大牛,就怕大牛还会写文章。 作为AI100智库专家,智亮总是能在口若悬河中,让人深入浅出地学到一堆堆干货,掏心窝子的干货。 多年的实战经验...

40410
来自专栏CSDN技术头条

Github上的十大机器学习项目

Github上的十大机器学习项目涵盖了一系列函数库、框架和教学资源。我们来看看别人使用的工具和学习的资源。 开源软件是数据科学很重要的一部分。 根据最近的KDn...

30210
来自专栏思影科技

HBM:阅读中语音产生期间的脑功能近红外光谱研究

摘要:发表在Human Brain Mapping上的一篇文章使用fNIRS探究了和发音并发声相关联的言语过程中皮层血流动力学和功能连接程度。被试在进行fNIR...

3789
来自专栏AI科技评论

业界 | 一文看懂谷歌 NYC 算法与优化业务全景(附重点论文下载)

AI 科技评论消息,众所周知,谷歌的研究团队遍布世界各地,而纽约自然也是非常重要的一个地点,尤其是多个谷歌算法研究小组的孕育地。目前,谷歌算法优化团队为谷歌产品...

3646
来自专栏量子位

XNOR.ai要简化数学,让人工智能从云端走进普通设备

来源 | TechCrunch 编译 | 量子位 陈桦 与许多计算机概念类似,在讨论人工智能、机器学习或深度卷积网络时,人们关注的是数学。这些高性能网络的核心是...

25010
来自专栏CreateAMind

DeepMind声称通过AI为Google全球机房节能15%的新闻有多少可信度?

在DeepMind的官网blog里[3],提到了Google使用DeepMind提供的AI技术,在机房的能耗上获得了大幅的削减,对应于PUE(Power Usa...

2033
来自专栏量子位

国内首个深度学习开发SDK发布:深鉴科技对标英伟达TensorRT

安妮 发自 清华同方科技广场 量子位 出品 | 公众号 QbitAI AI芯片厂商开始意识到,AI芯片的计算性能再好,失去完备的软件包工具链的支持,也将丧失优势...

4397
来自专栏大数据挖掘DT机器学习

做股票数据挖掘的一些日志

首先说说数据挖掘吧,接触这东西也是机缘巧合,上学期听说ZYN学姐在做科创,于是问了问具体情况,她说跟数据挖掘有关,这词我还是第一次听说,听起来很高级啊,我看了些...

5375

扫码关注云+社区

领取腾讯云代金券