资源 | 囊括欧亚非大陆多种语言的25个平行语料库数据集(拿走不谢!)

选自gengo.ai

作者:Meiryum Ali

机器之心编译

参与:王淑婷、路

与大部分机器学习模型一样,有效的机器翻译系统需要大量的训练数据才能产生可读性强的结果。平行文本翻译语料库是两种语言之间的结构化翻译文本集。此类平行语料库对训练机器翻译算法至关重要。但从哪里可以获得这些外语数据集呢?请看下列清单↓↓↓

平行文本数据集

  • Aligned Hansards of the 36th Parliament of Canada:包含英语-法语句对。
  • 地址:https://www.isi.edu/natural-language/download/hansard/
  • European Parliament Proceedings Parallel Corpus 1996-2011:包含 21 种欧洲语言句对。
  • 地址:http://www.statmt.org/europarl/
  • Global Voices Parallel Corpus:新闻门户网站 Global Voices 的内容精选,包括 57 种语言的新闻文本。
  • 地址:http://casmacat.eu/corpus/global-voices.html
  • RATS language identification:包含将近 5400 个小时的阿拉伯语、波斯语、达里语、普什图语和乌尔都语电话会话语音,并附有语音分割标注。
  • 地址:https://catalog.ldc.upenn.edu/LDC2018S10
  • Chinese-French Text:包含来自 Chinese Broadcast News 语料库的大约 3 万汉字子集的法语译文。
  • 地址:https://catalog.ldc.upenn.edu/LDC2018T17
  • Arabizi Text:自动检测英语和阿拉伯语混合文本中语码转换的训练数据,包含 522 条推特。
  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0126/
  • English-Vietnamese Text:包含 50 万个英语-越南语句对的语料库。
  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/
  • English-Persian Text:包含超过 20 万个英语-波斯语对齐句对。
  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0118/
  • Chinese-English Emails:包含来自电子邮件的 15000 个汉字(相当于 10000 个英文单词)及其英文参考译文。
  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/
  • French-Arabic Newspapers:包含 10000 个阿拉伯语单词和 2 个法语参考译文的语料库。源文本是 2013 年 5 月从阿拉伯版《Le Monde Diplomatique》中收集的文章。
  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0100/
  • Pashto-French Text:106 个小时的普什图语录音的文字记录及其法语译文。
  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0093/
  • German-English Text:手动词对齐的德语-英语平行语料库。
  • 地址:https://github.com/bicici/SMTData/blob/master/German-English_WordAlignment.zip
  • Turkish-English Text:为 WMT 2018 准备的土耳其语-英语平行语料库。
  • 地址:https://github.com/bicici/SMTData/commit/1cca572244c6c9b8e810735ca898f5f3a19b2ecc#diff-7a11a746e07c7411854b77f3f521f534
  • UN translation text:6 种不同语言的联合国翻译文档合集。
  • 地址:http://opus.nlpl.eu/UN.php
  • XhosaNavy:南非海军英语和科萨语平行语料库。
  • 地址:http://opus.nlpl.eu/XhosaNavy.php
  • Wikipedia:20 种语言的平行句子语料库,句子来源于维基百科。
  • 地址:http://opus.nlpl.eu/Wikipedia.php
  • English-Croatian:英语和克罗地亚语平行文本。
  • 地址:http://opus.nlpl.eu/hrenWaC.php
  • Catalan-Spanish:从加泰罗尼亚政府官方刊物中收集的加泰罗尼亚语和西班牙语文档合集。
  • 地址:http://opus.nlpl.eu/DOGC.php
  • English-Japanese:Wikipedia』s Kyoto Articles 日英双语语料库,包含大约 50 万个人工翻译的句对。
  • 地址:https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus
  • OntoNotes:包含英语、中文和阿拉伯语各类文本(新闻、电话会话、网络日志、新闻组、广播、脱口秀)的标注语料库。
  • 地址:https://catalog.ldc.upenn.edu/ldc2013t19
  • Central Europe Telephone Speech:包含约 44 小时的标注电话语音,捷克和斯洛伐克语。
  • 地址:https://catalog.ldc.upenn.edu/LDC2018S08
  • South Asia Telephone Speech:包含约 118 小时的标注电话语音,孟加拉语、印地语、旁遮普语、泰米尔语和乌尔都语。
  • 地址:https://catalog.ldc.upenn.edu/LDC2017S14
  • Turkish Telephone Speech:包含约 18 小时的土耳其语电话语音。
  • 地址:https://catalog.ldc.upenn.edu/LDC2017S09
  • Chinese Treebank:来自 Chinese newswire、政府文件、杂志文章和各种广播新闻的约 150 万字标注和解析文本。
  • 地址:https://catalog.ldc.upenn.edu/LDC2013T21
  • Arabic Broadcast News Transcripts:包含 2008 年和 2009 年收集的大约 37 小时阿拉伯广播新闻文字记录。
  • 地址:https://catalog.ldc.upenn.edu/LDC2018T14

原文链接:https://gengo.ai/datasets/25-best-parallel-text-datasets-for-machine-translation-training/

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-11-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【读书笔记】基于知识库的问答:生成查询图进行语义分析

【导读】将DBPedia和Freebase这样的大规模知识库组织并存储在一个结构化的数据库,这已成为支持开放领域问题问答的重要资源。 KB-QA的大多数方法基于...

53870
来自专栏流媒体

音视频编码相关名词详解

PAR - pixel aspect ratio(像素宽高比)大多数情况为1:1,就是一个正方形像素,否则为长方形像素

15020
来自专栏生信技能树

如何通过Google来使用ggplot2可视化

今天是大年初二,这篇文章我只想传达一点: 没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的,如果有,请换个关键词继续Google! 第一...

34180
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/9/23

Rosetta: Understanding text in images and videos with machine learning

11850
来自专栏林欣哲

自然语言处理--文本处理

自然语言处理的目的是让机器试图理解和处理人类的文字。通常来说,人的语言是冗余的,含有歧义的,而机器是准确的,无歧义的,要让机器理解,这之间存在一个转换的问题。 ...

40980
来自专栏数据小魔方

R语言可视化——用ggplot构造期待已久的雷达图

之前一直苦恼于ggplot函数无法制作雷达图,心想着既然饼图可以通过柱形图+极坐标模拟出来,为啥雷达图不行。 我尝试着用折线图+极坐标来模拟雷达图(之前在制作饼...

41260
来自专栏AI科技大本营的专栏

开启机器学习的第一课:用Pandas进行数据分析

翻译 | AI科技大本营 参与 | 林椿眄 本课程的目的并不是要开发一门全新的机器学习或数据分析的综合入门课程,也不是想借此来取代基础教育、在线/离线课程或一...

46750
来自专栏大数据

季节性单位根

正如MAT8181课程中所讨论的那样,至少有两种非平稳的时间序列:存在趋势的和存在单位根(这种类型被称为 单整的)。单位根测试不能用来评估一个时间序列是否平稳,...

38050
来自专栏Android 开发者

Android Smart Linkify 支持机器学习

上半周,我们发布了 Android 9 Pie,这是 Android 的最新版本,它的机器学习应用使您的手机更简单易用。 Android 9 中有一项功能是 S...

15530
来自专栏数据魔术师

运筹学教学 | 十分钟快速掌握最大流算法(附C++代码及算例)

—“运筹教科书到底能给你啥?” —“算法和实现离教科书有多远?” —“问题解决能力到底从哪来?” 今天刚起床就接到了BOSS的 提·问·三·连 小编表示 收到直...

62250

扫码关注云+社区

领取腾讯云代金券