首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

德国马普所Lieberwirth课题组JCIM论文:机器翻译德文专业文献是否靠谱?

目前有大量发表的数据库和研究论文以英语以外的语言存在而且仍未翻译。以德文撰写的研究论文和专利也是重要的科学信息来源。尽管Reaxys已经收购了Beilstein和Gmelin,但自1770年代以来,许多原始参考文献仍然使用德语。要阅读这些资料,一种方便的方法是利用机器翻译来阅读德语资料,但这存在翻译可靠性的问题。过去的翻译完全基于短语,翻译的效果不太理想。近年来基于神经网络的机器翻译(Neural Machine Translation)在翻译质量方面取得了巨大的飞跃,大大缩短了人类和计算机辅助翻译之间的差距。

最近,来自埃及、德国、美国的研究人员合作,测试了Google和DeepL执行的德文-英文翻译,并与人工翻译的结果进行比对。他们的研究结果发现这两个较先进的翻译机器对于德语翻译有一定的可靠性,但同时也需要阅读者小心警惕翻译中可能出现的常见错误。该项工作最近发表在美国化学会出版的Journal of Chemical Information and Modeling杂志上(J. Chem. Inf. Model.2018, 58(11): 2214-2223)。

在这项工作中,研究者精心挑选的文字段落反映了有机化学、无机化学、表面光谱和量子化学的不同领域,涵盖了100年的德国数据库和文献。他们挑选的德文段落来自:Beilstein有机化学手册中对两个化合物的描述,它们是德语旧式科学写作/拼写的代表;Gmelin无机化学手册中的热力学数据;Landolt-Börnstein数据库中的描述性表格数据;Houben-Weyl Methoden化学合成方法的某个化合物的合成步骤信息;Tisza的小组理论论文;Angewandte Chemie杂志2005年发表的一篇关于单层表面拉曼光谱实验的论文。

(1)Beilstein Handbuch derOrganischen Chemie中的化合物信息

Beilstein提供有机化合物的自然形态,制备方法,结构和物理化学性质方面的信息。该数据库中的语句非常简洁并且伴有大量缩写。他们分别测试了描写两个不同化合物信息的段落,一段代表非常古老的写作风格(1897年),另一段是比较现代化的风格(1933年)。对于年代较久远的文段来说,整体来看,Google和DeepL两种机器翻译出现的错误很少,DeepL出现的错误更少。而且也能正确地识别一些老式的或者拼写有错的单词,比如Theilen和filtrirt。ccm的缩写也能正确翻译成cc(立方厘米)。但是原文中碘甲烷的表示方式CH3J在译文中仍表示为CH3J,未能正确翻译。在1933年的另一段文字中,拼写和表达方式更现代化,但其语句仍然是高度简洁精炼的。结果显示:DeepL的翻译几乎无误。一些标准的缩写也能正确翻译,比如“alkoh”能正确翻译成“alcohol”。

(2)Gmelin Handbuch derAnorganischen Chemie中的描述性热力学数据

Gmelin是一个关于无机和有机金属化合物的数据库,其信息详细且全面。自1771年以来,Gmelin一直以德语出版。研究人员选择了氢在钨中溶解度的热力学数据的段落。DeepL能几乎无误地翻译文中热力学数据和符号。

图-1 Gmelin段落文章截图

(3)Landolt-Bornstein数据库信息

Landolt-Börnstein是材料科学和化学,物理学等相关领域的数值与事实型数据库,已有100多年的历史。该数据库的语言特点是正式的并且充满描述性的,与Beilstein的紧凑语言风格截然不同。Google和DeepL的翻译结果表明,两者都能正确识别一些老式拼写,DeepL翻译出现的小错误较少,比如DeepL能正确翻译“Bond”,而Google则翻译成Binding。研究人员还发现这两种翻译机器都漏翻译了一个很关键的单词“reversely”,这会给读者带来一定的误导。

(4)Methoden der OrganischenChemie(HW)的化合物合成方法

Methoden der OrganischenChemie被称为合成有机化学的标准参考资料,它提供化合物详细的制备方法。研究人员选择的文段是双钌衍生物的合成方法,语句特点是非常简短。

图-2 Methoden段落截图

Google和DeepL的翻译都很流畅,看起来似乎没有问题。Google能把数字中的逗号正确更改为小数点。但是,读者必须要注意到这两者翻译的一个重大陷阱。原文的意思是将新蒸馏的双-[二甲基氨基]-甲烷滴加到二茂钌混合物中,而翻译的意思完全相反,即将二茂钌滴加新蒸馏的双-[二甲基氨基]-甲烷滴到新蒸馏的双-[二甲基氨基]-甲烷中。作者推测出现此问题的原因是句子中缺失主语并且动词以被动的形式出现。读者在翻译此类句子的时候应该谨慎,避免被误导。

(5)科学期刊论文

科学论文的写作风格是使用长句,这与Gmelin,Beilstein和Landolt-Börnstein有很大不同。长句是新语言学习者和机器翻译的绊脚石。这种写作风格是许多具有里程碑意义的古典英语和德国作品的科学论文的特征。研究人员选择Tisza的开创性著作“ Zur Deutung der Spektren mehratomiger Moleküle” “关于多原子分子光谱的解释”,目的是探究机器能否正确翻译穿插有许多数学符号的文本。翻译结果显示,DeepL能更流畅地翻译该段落。只要读者有基本的专业知识,几乎都能看懂翻译的句子。Google Translate和DeepL有一个替代翻译的功能。我们知道,很多时候,科学论文使用的词语跟其他语义相近的词语相比,使用的频率较低,这可能导致机器翻译的准确性降低。但有了替代翻译的功能后,当你点击某个词语,原始翻译的词语就会被另一个词语替代,使翻译结果更恰当。

(6)Angewandte Chemie文献:机器翻译与人工翻译对照

本次选取的文段来自Angewandte Chemie由Bin Ren和Gerhard Ertl在2005年共同撰写的论文。该论文首先用英语写成,然后由德语母语人士(Bruno Pettinger,共同作者)进行德语翻译。作者向Angewandte Chemie提交了英文和德文版本。选择该段落的主要优点是有人工翻译的文本进行对照。由于此段落与前面的几个段落相比相对较新而且短句居多,Google和DeepL的译文与英语出版版本几乎完全相同。这种现代风格的文章与20世纪80年代以前的研究文章截然不同。现代文本的机器翻译非常出色,前途光明。

总结:这项研究工作表明机器翻译是一种强大、可靠的工具。机器翻译的结果可能不够完美,但是有助于读者理解核心思想,而且还在不断改进。对于20世纪90年代以前的科学文章,可能是因为相对低的分辨率和较多的缩写导致翻译结果不太理想。另外,在翻译诸如合成方法的文献,必须警惕机器翻译的错误,有时会翻译成完全相反的意思。作者相信将来机器翻译会成功翻译更多的德语资料,并且准确性更高。

参考文献:Zulfiqar S, Wahab M F, Sarwar M I, et al. Is MachineTranslation a Reliable Tool for Reading German Scientific Databases andResearch Articles? Journal of Chemical Information and Modeling, 2018, 58(11):2214-2223.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181222G0ENKV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券