前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Github 项目推荐 | 无监督神经机器翻译 —— UNdreaMT

Github 项目推荐 | 无监督神经机器翻译 —— UNdreaMT

作者头像
AI研习社
发布2018-07-26 15:05:17
9820
发布2018-07-26 15:05:17
举报
文章被收录于专栏:AI研习社AI研习社

UNdreaMT 是一个开源的无监督神经机器翻译系统,该系统的具体实现方式在以下的论文里有详细地描述:

代码语言:javascript
复制
Mikel Artetxe, Gorka Labaka, Eneko Agirre, and Kyunghyun Cho. 2018. Unsupervised Neural Machine Translation. In Proceedings of the Sixth International Conference on Learning Representations (ICLR 2018).

论文链接:

https://arxiv.org/pdf/1710.11041.pdf

如果你需要用该软件做学术研究,请在论文里引用以下信息:

代码语言:javascript
复制
@inproceedings{artetxe2018iclr,
  author    = {Artetxe, Mikel  and  Labaka, Gorka  and  Agirre, Eneko  and  Cho, Kyunghyun},
  title     = {Unsupervised neural machine translation},
  booktitle = {Proceedings of the Sixth International Conference on Learning Representations},
  month     = {April},
  year      = {2018}
}

Github 链接:

https://github.com/artetxem/undreamt

安装需求:

  • Python 3
  • PyTorch (tested with v0.3)

用法:

下面的指令使用了论文中描述的完全相同的设置用单语语料库来训练无监督的 NMT 系统。

代码语言:javascript
复制
python3 train.py --src SRC.MONO.TXT --trg TRG.MONO.TXT --src_embeddings SRC.EMB.TXT --trg_embeddings TRG.EMB.TXT --save MODEL_PREFIX --cuda

上述的数据通过以下的方式提供:

  • SRC.MONO.TXT 和 TRG.MONO.TXT 是源数据同时是目标语言的单语库,它们都应该进行预处理,以便原子符号(tokens 或 BPE 单元)由空格分隔。为此,我们推荐使用 Moses 来标记和真实化语料库,如果开发者想使用 BPE,还可以选择使用 Subword-NMT。
  • SRC.EMB.TXT 和 TRG.EMB.TXT 是源语言和目标语言的跨语言嵌入。建议使用 word2vec 或 fasttext 在上面的语料库中训练单语嵌入,然后使用 VecMap 将它们映射到共享空间。
  • MODEL_PREFIX 是输出模型的前缀。

使用上述的设置,在单个 Titan Xp 上训练大概需要 3 天。一旦训练完成,你就能用生成的模型来翻译,如下所示:

代码语言:javascript
复制
python3 translate.py MODEL_PREFIX.final.src2trg.pth < INPUT.TXT > OUTPUT.TXT

有关更多详细信息和其他选项,请使用 --help 运行上述脚本。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档