前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >翻译模型:小数据集处理

翻译模型:小数据集处理

作者头像
算法一只狗
发布2022-11-04 11:24:53
4950
发布2022-11-04 11:24:53
举报
文章被收录于专栏:算法一只狗算法一只狗

1.背景

最近在研究翻译模型中,小数据集的问题,看了几篇有代表性的文章,因此分享一下。众所周知,一个成功的翻译模型,需要大量的语料,让模型能够有效学习到两个语种之间的内在联系。但针对小数据集的翻译模型,除了数据集过少导致模型不能够提取重要特征之外,还使得模型在效果降低,不能成熟应用到工业界中。前人的这个小数据集的问题,包括了以下几种方法:

  • 迁移学习
  • 对偶学习
  • Meta-Learning(元学习)
  • 多任务学习

下文,分别介绍几种方法中的代表性论文。

2. 迁移学习

《Transfer Learning for Low-Resource Neural Machine Translation》

  • X和Y的翻译任务为例,首先训练X和Z之间的NMT模型,之后在训练X和Y的翻译模型。
  • 预先在high-resource语言上进行训练,然后在迁移到low-resource中进行训练

NMT模型通常比串到树统计模型(string-to-tree statistical MT)要好。

论文主要的方法为:首先利用高资源的数据集,训练一个parent model,然后利用这个parent模型,初始化约束训练低资源的数据集。French-English 作为parent model,其他语言作为child model进行训练。

在大量双语数据上训练的父模型可以被认为是一个锚点,作为模型空间中的先验分布的峰值。在法语-英语到乌兹别克语-英语的例子中,作为初始化的结果,来自父模型的英语embedding被复制,但乌兹别克语词最初被映射到随机法语embeddings。

实验

parent model:French-English child model:Hausa-English,Turkish-English,Uzbek-English,Urdu-English

  • SBMT:string-to-tree static model
  • NMT:随机初始化训练
  • Xfer:使用迁移学习方法
  • Final:迁移学习+集成学习

从实验结果来看,加入迁移学习后,每个NMT任务都有所提升。

更换parent后发现,French-English对Spanish-English效果最好,这是因为French和Spanish是相似的语言:

3.对偶学习

《Dual Learning for Machine Translation》

  • 机器翻译涉及到两个互为对偶的任务,比如从中文到英文和从英文到中文的翻译

4. Meta-Learning(元学习)

《Meta-Learning for Low-Resource Neural Machine Translation》

  • few-shot在NMT任务上的应用,通过构造C-Way K-shot。会在训练集中随机抽取 C 个类别,
  • 每个类别 K 个样本(总共 CK 个数据),构建一个 meta-task

5.多任务学习

《Multi-task sequence to sequence learning》

这篇文章主要介绍是那种不同的multi-task learning(MTL)多任务学习方法

  • 一对多:在多个任务上,encoder参数是共享的
  • 多对1,decoder被共享参数,比如在翻译和图片主题任务上
  • 多对多,多个encoder和decoder被贡献,通常用在无监督目标和翻译任务

论文中还探索了两个无监督任务:序列自编码、skip-thought vectors

具体任务

  • 一对多任务:一个encoder,多个decoders。其中encoder的参数是共享的,如下图:

encoder的输入是English 单词输入。decoder有三个:语法解析,德语翻译,英文自编码

  • 多对一任务:多个encoder,一个decoder进行共享参数

此外,从机器翻译的角度来看,这种设置可以受益于目标端的大量单语数据,这是机器翻译系统中的标准做法。

  • 多对多任务:多个encoder和多个decoder

无监督学习任务

autoencoders:自编码模型,使输出能够还原为输入

skip-thought vectors: 这种无监督任务,最开始应用于有序句子之间进行预测,也既是段落里预测下一个句子。由于翻译任务中,不存在段落结构,因此论文中把每个句子分成两部分,使用一半句子来预测下一半句子。

学习过程

实验中,采用混合比例 来定义更新哪个任务,每个任务都是独立更新的。

比如有三个任务,他们被选择的概率为 ,, 这个值表征更新该任务参数的概率。

实验结果

一对多任务中:

  • 翻译任务的 ,当PTB解析任务的 ,则说明每训练100次翻译任务,则有1次训练PTB解析任务。
  • 从实验中看,当PTB解析任务的 时,两个任务的效果都有所提升。

无监督多任务学习:

  • skip-thought任务会比自编码任务取得更好的效果
  • 作者认为:

(a)理想的目标应该与重点关注的监督任务兼容,例如,自动编码器可以被视为一种特殊情况 翻译任务 (b)使用更多无监督数据,内在和外在指标都可以得到有效的改进;

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-10-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法一只狗 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 实验
  • 具体任务
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档