首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

સુપ્રભાત!懂「印度方言」的多语言机翻模型挑战0资源翻译,论文已被ACL2021接收

有意思的是,LaSS同时还表现出极强的通用性,能够在保证不影响原来语言对的效果的前提下,在几分钟之内扩展到新的对并取得相当好的表现。...总体架构 左边的图(a)表示传统多语言机器翻译模型,灰色代表共享权重,这意味着,图上三个言对(En-Zh,En-Fr和En-De)都完全共享同一套参数。...而右边的图(b)则是LaSS,相比(a),三个言对不仅仅共享部分权重,更重要的是,他们还拥有属于自己的权重(不属于自己的参数为0)。...在训练中,输入语言对对,只更新与该语言对相关的子网络,在推理测试阶段,只有与该语言对相关的子网络参与计算。 微调+剪枝生成子网络 本文采用一个简单而高效的方法来找到每个语言对的子网络。...在微调后,对微调后的模型的权重进行排序,将值最低的权重进行剪枝。对每个语言对分别进行这样的操作(微调+剪枝),这样就能够获得每个语言对的子网络。

46530

谷歌双语助理来了!中英夹杂也不怕,递归神经网络和随机森林显神威

多语家庭正变得越来越普遍,有一些研究发现多语人口已经超过单人口,而且这个数字还将继续增长。随着多语用户数量的不断增加,开发能够同时支持多种语言的产品比以往任何时候都更加重要。...最后,我们将问题分解为三个独立的部分:识别多种语言,理解多种语言,以及为 Google Assistant 用户优化多语言识别。...今天,谷歌最先进的 LangID 模型已经可以使用递归神经网络区分超过 2000 种可供选择的语言对。递归神经网络特别适用于序列建模问题,例如语音识别、语音检测、说话人识别等。...这是借助另外一种算法实现的,该算法使用 LangID 生成的候选语言的概率、我们对转录的信心以及用户的偏好(例如,最喜欢的艺术家)对两个语音识别系统提供的转录假设进行排序。...Google Assistant 使用的多语言语音识别系统与标准单语音识别系统的示意图。排序算法用于从两个单语音识别器中选择最佳的识别假设,利用了用户的相关信息和增量的 langID 结果。

76820

Facebook全新无监督机器翻译法,BLUE测试提升超过10分!

不过,传统的统计机器翻译也好,NMT也罢,都需要大量的训练数据,比如中英、英德、英法等大量语言对。而对于训练数据较少的语种,比如尼泊尔,就很难应对了。...—不需要任何翻译好的语言对。...无监督机器翻译三原则:词到词的翻译、语言建模和反向翻译 在Facebook的这项工作中,他们确定了三个步骤——词到词的翻译(word-by-word initialization)、语言建模和反向翻译—...A) 构建两种语言的词嵌入模型;B) 通过旋转对齐词嵌入进行词到词的翻译;C) 通过单语种模型训练改善;D) 反向翻译。...使用这种方法得到的翻译结果,与使用100,000个语言对进行训练的监督模型效果相当。

85920

出海应用本地化时遇见单复数字串怎么办?

以阿拉伯举例,它的名词单复数格式变化有6种之多,俄罗斯、乌克兰、波兰等有4种,拉脱维亚、立陶宛等有3种。更别说,各语言下的细则还有差异。...比如,俄罗斯和波兰支持的名词单复数格式都是4种,但是各格式所对应的规则还不一样。在俄语里,1,21,31,41,51,61…这样数字后面跟的名词才能使用单数格式。...把字串做下拆分,再用one, zero, two, few, many, other六类index分别做标注(六个类别下各语言对应的数字规则可参考https://unicode-org.github.io...同时新建两条字串b、c,这两个变量%1s、%2s分别调用字串b、字串c。 字串b:%1$d 张交通卡,需要进行单复数拆分; 字串c:%1$d 张,需要进行单复数拆分。...这个是因为当支持的语种众多,且包含阿,为了字串管理方便,可以统一把单复数字串在源(此处为英文)中拆分为6条。

3.7K20

Facebook最新对抗学习研究:无需平行语料库完成无监督机器翻译

相反,单数据更容易找得到,而且许多具有有限并行数据的语言仍然拥有大量的单数据。 ? 在半监督环境中,我们已经进行了多次尝试,试图利用单数据来提高机器翻译系统的质量。...另一种在目标端使用单数据的方式是用语言模型来增强解码器(Gulcehre等人于2015年提出)。...之前关于零资源(zero-resource)机器翻译的研究也依赖于标记信息,它们不是来自于那些有用的语言对,而是其他相关的语言对(Firat等人于2016年、Johnson等人于2016年、Chen等人于...其中,x是目标,C(x)是噪声输入,x^是重建。右(翻译):模型被训练用以翻译另一个领域的句子。...我们所做的唯一假设是每种语言都存在一个单语料库。这个假设有两个有趣的原因。 首先,当我们遇到一个我们没有注释的新语言对,就可以使用它。其次,它对任何好的半监督方法预期会产生一个强大的下界表现。

89350

每日论文速递 | 华为提出一个提高LLM翻译能力的新训练范式

本文提出了一种新颖的范式,包括三个阶段:使用大量单数据进行二次预训练,使用跨行文本格式文档进行持续预训练,以及利用源语言一致性指导进行监督微调。...具体来说,论文提出了一个新的训练范式,旨在通过以下三个阶段来增强LLMs的跨语言对齐能力: 次级预训练(Secondary Pre-training)使用大量单数据:这一阶段的目标是通过使用多样化的单数据来增强大型语言模型的训练...ALMA:一个两阶段微调方法,首先在单数据上微调,然后在少量高质量平行数据上微调。...** 通过这三个阶段的训练,论文的方法能够在保持模型参数数量相对较少(例如7B或13B)的情况下,超越以往的工作,并与更大的模型(如NLLB-54B和GPT3.5text-davinci-003)相比取得更好的性能...探索不同语言对的效果: 论文主要关注了中英和英德两种语言对的翻译性能。未来的研究可以扩展到更多的语言对,以验证方法的普适性。 使用不同数据增强技术的实验: 论文中使用了特定的数据增强策略。

24610

入门 | 无需双语语料库的无监督式机器翻译

难点在于某些语言对很难获取大量数据(来使用深度学习的力量)。 机器翻译的问题 如上所述,神经机器翻译最大的问题是需要双语语言对数据集。...对于英语、法语这类广泛使用的语言来说,这类数据比较容易获取,但是对于其他语言对来说就不一定了。如能获取语言对数据,则该问题就是一个监督式任务。 解决方案 论文作者指出如何将该任务转换成无监督式任务。...之后,使用上述的噪声函数 C() 应用到 y 上,得到 C(y)。语言 A 的编码器将 C(y) 编码,然后由语言 B 的解码器将其解码,重构出 C(y) 的无噪声版本。...整合所有部分 将上述的三个不同的损失(自动编码器损失、翻译损失和鉴别器损失)加在一起,所有的模型权重在一个步骤内更新。...训练该架构时有三个主要步骤。训练过程是迭代进行的。训练循环分为以下三步: 1. 使用语言 A 的编码器和语言 B 的解码器进行翻译; 2.

1.1K70

拓端tecdat|R语言聚类有效性:确定最优聚类数分析IRIS鸢尾花数据和可视化

它包括三个鸢尾花品种,每个品种有50个样本,以及一些属性。其中一个花种与其他两个花种是线性可分离的,但其他两个花种之间不是线性可分离的。...bottom, left, top, right)par(mar = c(2,2,2,2)) # 根据一些指标来衡量聚类的合适性。...KM(Data, 1, 10) # 对聚类1至10的测试# sortg = TRUE:将iris对象(行)作为其组别成员的函数排序# 在热图中用颜色表示组成员类# 排序是为了产生一个更容易解释的图表。...计算数据集的霍普金斯统计数字hopkins_stat # 也可以用函数hopkins()计算。hopkins(iris) # 5....MNIST数据集分析 探索手写数字分类数据 9.R语言基于Keras的小数据集深度学习图像分类

88710

【源头活水】mBART:多语言翻译预训练模型

对于无监督的情况,我们看到了一致的改进,并为关联性较低的语言对产生了第一个非生成结果(例如,在尼泊尔-英语上的9.5个BLEU增益)。...例如,对一种语言对(如韩语-英语)的双文本进行微调,就可以创建一个模型,该模型可以从单语言预训练集(如意大利-英语)中的所有其他语言进行翻译,而无需进一步的训练。...我们还对每个实例中的句子顺序进行了排序。解码器的输入是有一个位置偏移的原文。一个语言id符号作为初始token来预测句子。...也可以使用其他的噪声类型,例如Lample等人(2018c)中的噪声类型,但我们将最佳噪声策略的探索留给未来的工作。...数据集:我们只考虑X→En翻译,从§3.1中选择了12种语言对的位数,涵盖了印度(Ne、Hi、Si、Gu)、欧洲语言(Ro、It、Cs、Nl)、东亚语言(Zh、Ja、Ko)和阿拉伯(Ar)。

4.1K30

论文领读|面向机器翻译的多语言预训练技术哪家强?最新进展一睹为快!

多语言模型也许是一个选择,多语言模型利用具备丰富资源的语言对的数据,能够帮助低资源乃至无资源语言的机器翻译性能得到提升,使得建立覆盖庞大语言对的机器翻译系统成为可能。...方法CeMAT 预训练模型主要分为三个模块:条件掩码语言模型 CMLM、Aligned Code-Switching & Masking 与 Dynamic Dual-Masking,接下来我们逐一介绍这三个模块...对于单数据,由于单数据的源端和目标端句子相同,为了防止模型"走捷径"直接复制,CeMAT 对源端和目标端进行相同的掩码。...将上述三个模块结合起来,总的损失函数为:$$L=-\sum{(\hat{X}_m,\hat{Y}_m)\in \hat{D}}\lambda \sum{y^jn\in y_n^{mask}}logP(y...,但并没有直接的跨语言对齐信息 (存在隐式的编码器参数共享),在高资源的情况下对于跨语言任务没有明显帮助,我们可以看到在 En-De 的语言对上 mBART 初始化性能甚至稍弱于随机初始化 (Direct

64020

学界 | FAIR新一代无监督机器翻译:模型更简洁,性能更优

https://arxiv.org/pdf/1804.07755.pdf 摘要:机器翻译系统在某些语言上取得了接近人类水平的性能,但其有效性在很大程度上依赖大量双语文本,这降低了机器翻译系统在大多数语言对中的适用性...尽管最新进展表明,使用神经网络方法的几种语言对的翻译表现已经接近人类水平(Wu et al., 2016; Hassan et al., 2018),但其他研究也显露出一些公开的难题(Koehn and...不幸的是,绝大多数语言对的平行语料很少:学习算法需要更好地利用单数据,以扩大 MT 的应用范围。 大量文献研究了在有限的监督下使用单数据来提升翻译性能的问题。...A)两个单数据集。标记对应于句子(详细信息请参见图例)。B)原则一:初始化。比如,这两个分布通过使用推断的双语词典执行逐词翻译而大致对齐。C)原则二:语言建模。...从这次(反向)翻译开始,我们使用目标语→源模型(连续箭头)来重建初始语言中的句子。重建结果与初始语句的差异为训练目标语→源模型参数提供了误差信号。

1K60
领券