首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

直击AAAI 2020,一文读完微软亚研6篇精选论文

其中,MTFC 的任务定义为,给定一句中文口语,翻译的结果应该为正规的英文书面。...为了验证模型在这个任务的表现,MTFC 的验证集和测试集分别包含2865和1412个中文口语到英文书面的句对(每一句中文口语提供4句英文书面作为参照)。...XNLG 是一个序列到序列的 Transformer 模型,它的训练包括两个阶段:编码训练、解码训练,以及两个维度:单训练、跨语言训练,共计4个训练任务,如图4所示: ?...首先我们定义了一种分析语言,将数据分析过程编码为一系列的操作符,每个操作符可以是预定义的分析操作(开始分析的一个部分、选定聚合函数等),也可以是选择数据表格中的一个维度。...首先,我们在有标数据和利用 back-translation 做了数据增强的两组设置下得到了如图13所示的实验结果。结果表明,我们的算法 TEL 在不同的设置下都能够取得一定的提高。 ?

1.2K20

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单记忆实现高性能NMT

与使用双语语料库作为 TM 并采用源端相似性搜索进行记忆检索的现有工作相比,该研究提出了一种新框架,该框架使用单记忆并以跨语言方式执行可学习的记忆检索。...和原始输入 x 为条件,使用概率模型 ? 来生成输出 y。 值得注意的是,相关性分数 ? 也是翻译模型输入的一部分,它能够鼓励翻译模型更多地关注更相关的句子。...表示第 i 个源(目标)语句中的 token 集,token 概率由线性投影和 softmax 函数计算。...实验结果 该研究在三种设置下进行了实验: (1)可用的 TM 仅限于双语训练语料库的常规设置; (2)双语训练对很少,但用单数据作为额外 TM 的低资源设置; (3)基于单 TM 的非参数域自适应设置...低资源设置 图 2 为在测试集上的主要结果,所有实验的一般模式都是一致的,由结果可得:TM 越大,模型的翻译性能越好。当使用所有可用的单数据 (4/4) 时,翻译质量显著提高。

76130
您找到你想要的搜索结果了吗?
是的
没有找到

谷歌搜索用上BERT,10%搜索结果将改善

最近,谷歌宣布,他们的搜索引擎用上了强大的 BERT 训练模型,可以让搜索引擎结合语境理解用户的搜索意图,甚至能理解一些不起眼的介词在搜索句中的重要含义。...BERT 对于搜索引擎有何作用? 去年,谷歌开源了用于自然语言处理的训练模型——BERT 。一经推出,BERT 就刷新了 11 项 NLP 任务的 SOTA 记录,登顶 GLUE 基准排行榜。...用上 BERT 之后,对于比较长、会话性比较强的查询,或者在「for」、「to」等介词比较重要的语句中,谷歌搜索引擎将能够理解查询语句中词的上下文。用户可以用更加自然的方式进行搜索。...用上 BERT 之前,谷歌搜索引擎用的是匹配关键词的方法,用搜索结果中的「stand-alone」匹配查询语句中的「stand」。但根据语境,「stand」在搜索句中的含义并非如此。...他们还用 BERT 改进了 20 多个国家的精选摘要,在韩语、印地、葡萄牙中取得了显著进展。

1.5K20

AAAI 2020 | 微软亚洲研究院6篇精选论文在家看

其中,MTFC 的任务定义为,给定一句中文口语,翻译的结果应该为正规的英文书面。...为了验证模型在这个任务的表现,MTFC 的验证集和测试集分别包含2865和1412个中文口语到英文书面的句对(每一句中文口语提供4句英文书面作为参照)。...XNLG 是一个序列到序列的 Transformer 模型,它的训练包括两个阶段:编码训练、解码训练,以及两个维度:单训练、跨语言训练,共计4个训练任务,如图4所示: ?...首先我们定义了一种分析语言,将数据分析过程编码为一系列的操作符,每个操作符可以是预定义的分析操作(开始分析的一个部分、选定聚合函数等),也可以是选择数据表格中的一个维度。...首先,我们在有标数据和利用 back-translation 做了数据增强的两组设置下得到了如图13所示的实验结果。结果表明,我们的算法 TEL 在不同的设置下都能够取得一定的提高。 ?

71220

【AAAI 2020】微软亚洲研究院6篇精选论文在家必看!

其中,MTFC 的任务定义为,给定一句中文口语,翻译的结果应该为正规的英文书面。...为了验证模型在这个任务的表现,MTFC 的验证集和测试集分别包含2865和1412个中文口语到英文书面的句对(每一句中文口语提供4句英文书面作为参照)。...XNLG 是一个序列到序列的 Transformer 模型,它的训练包括两个阶段:编码训练、解码训练,以及两个维度:单训练、跨语言训练,共计4个训练任务,如图4所示: ?...首先我们定义了一种分析语言,将数据分析过程编码为一系列的操作符,每个操作符可以是预定义的分析操作(开始分析的一个部分、选定聚合函数等),也可以是选择数据表格中的一个维度。...首先,我们在有标数据和利用 back-translation 做了数据增强的两组设置下得到了如图13所示的实验结果。结果表明,我们的算法 TEL 在不同的设置下都能够取得一定的提高。 ?

64910

29 篇选 6,微软亚研院AAAI 2020论文精选,必看!

其中,MTFC 的任务定义为,给定一句中文口语,翻译的结果应该为正规的英文书面。...为了验证模型在这个任务的表现,MTFC 的验证集和测试集分别包含2865和1412个中文口语到英文书面的句对(每一句中文口语提供4句英文书面作为参照)。...XNLG 是一个序列到序列的 Transformer 模型,它的训练包括两个阶段:编码训练、解码训练,以及两个维度:单训练、跨语言训练,共计4个训练任务,如图4所示: ?...首先我们定义了一种分析语言,将数据分析过程编码为一系列的操作符,每个操作符可以是预定义的分析操作(开始分析的一个部分、选定聚合函数等),也可以是选择数据表格中的一个维度。...首先,我们在有标数据和利用 back-translation 做了数据增强的两组设置下得到了如图13所示的实验结果。结果表明,我们的算法 TEL 在不同的设置下都能够取得一定的提高。 ?

60810

Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗?一文总结机器翻译必备经典模型(二)

因此通常会使用束搜索(beam search)以找到合理的 y。束搜索是一种启发式搜索算法,会以从左向右的形式保留得分最高的部分序列扩展。特别是,它保存了一群候选的部分序列。...所有的RNN都使用具有600个隐藏单元的GRU单元,设置嵌入维度为300。使用具有一般对齐功能的全局注意力方法。该系统在三个重要方面与标准NMT不同: 双重结构。...使用transformer作为基本的序列模型,在WMT单语料库上进行训练,然后在三种不同的语言生成任务上进行微调,包括NMT、文本总结和对话回应生成。...当k=1时,源句中的掩码片段只包含一个标记,解码器在没有任何标记作为输入的情况下预测这个标记,但以未掩码的源标记为条件,如图17(a)所示。此时,模型就是BERT中使用的掩码语言模型。...当k=1时,源句中的掩码片段只包含一个标记,解码器在没有任何标记作为输入的情况下预测这个标记,但以未掩码的源标记为条件,如图7(a)所示。此时,模型就是BERT中使用的掩码语言模型。

46130

数据库sql常见优化方法

查询条件有没有加索引?一惊醒梦中人,赶紧检查..果然如此! 有时我们写sql语句时,没有考虑它的性能或者完全没有优化意识,虽然能暂时满足基本功能,等到数据量大时,后果可想而知。...4)尽量避免在 where 子句中使用 or 来连接条件,如果一个字段有索引,一个字段没有索引,引擎将放弃使用索引而进行全表扫描,: select id from person_info where...: ?...where name like ‘abc%’; 8)如果在 where 子句中使用参数或对字段进行表达式操作,也会导致全表扫描,: select id from person_info where...15)尽可能的使用varchar代替char,因为首先变长字段存储空间小,可以节省存储空间,其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些。

2.4K30

C语言:分支与循环

C⾔是结构化的程序设计⾔,这⾥的结构指的是顺序结构、选择结构、循环结构,C⾔是能够实 现这三种结构的,其实我们如果仔细分析,我们⽇常所⻅的事情都可以拆分为这三种结构或者这三种结构的组合。...二、switch语句 除了 if 语句外,C⾔还提供了 switch 语句来实现分⽀结构。 switch 语句是⼀种特殊形式的 if...else 结构,⽤于判断条件有多个结果的情况。...⽤ break 才能在跳出 switch 句,如果某⼀个 case 语句的后边没有 break 语句,代码会继续玩下执行,按顺序执行其他 case 语句中的代码,直到遇到 break 语句或者 switch...要想得到n的最低位,可以使⽤n%10的运算,得到的余数就是最低位,:1234%10得到4 2....9.2 srand C⾔中⼜提供了⼀个函数叫 srand,⽤来初始化随机数的⽣成器的 程序中在调⽤ rand 函数之前先调⽤ srand 函数,通过 srand 函数的参数seed来设置

12610

文本智能校对大赛冠军方案!已落地应用,来自苏州大学、达摩院团队

任务简介 中文文本纠错任务作为中文自然语言处理的一项较为重要的下游任务,在搜索、教育、新闻等领域都有着落地的价值。...则保留此编辑; 将保留的编辑,重新映射到原句中,得到纠错结果。...真实分布:我们从主办方开源的真实数据、二者真实数据(Lang8、HSK、MuCGEC)中,采集了替换、添加编辑的映射及其概率分布; 近义词:近义词方面,我们使用了大词林、Hownet等中文语义知识库...结果 参数设置上,我们对各模型的学习率、Dropout率、Batch-size等参数进行了网格搜索。...知识驱动:中文上,相当一部分错误需要丰富的语言学知识(句法)和逻辑知识先验,而现有的模型即便经过训练,对于此类错误的修改能力也是非常弱的。为模型融入语言学知识,可能对复杂错误的修改有帮助。

1.4K10

论文领读|面向机器翻译的多语言训练技术哪家强?最新进展一睹为快!

方法CeMAT 训练模型主要分为三个模块:条件掩码语言模型 CMLM、Aligned Code-Switching & Masking 与 Dynamic Dual-Masking,接下来我们逐一介绍这三个模块...词替换方法也在之前的许多训练工作中出现, CSP11、MRASP6、MRASP212,这种使用词级别的对齐信息,引导表示对齐的方法,在多语言训练技术中也非常流行。3....掩码的比例大小对性能的影响是非常大的, MBART 中的掩码比例设置为 35%,过低的掩码比例会使得模型更轻易地预测被掩盖的词,从而无法学到真正重要的东西。...MBART 训练对于低资源语言有比较明显的提升,而对于高资源语言的提升并不明显,这在之前的针对单训练的工作中就有所提及 6,笔者认为,单训练任务通过促进了单语言内部的语言建模,有效提高了低资源语言表示的质量...从 CSP 到 mRASP,再到 CeMAT,词替换技术在训练中成为了一个低成本高效的选择,对于一个新语言而言,获取词典的难度会更小,无监督词典生成方面也有许多研究, VecMap13,通过单 Embedding

67320

GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型(二)

非监督训练 在训练部分,用u表示每一个token(词),当设置窗口长度为k,预测句中的第i个词时,则使用第i个词之前的k个词,同时也根据超参数Θ,来预测第i个词最可能是什么。...为了训练理解句子关系的模型,作者训练了二进制的下一句预测任务,该任务可以从任何单语料库中轻松的生成。...在从单语料库中随机抽取的句子的连接上学习BPE分词。...语言建模通常是由一组数据构成的无监督分布估计,每一条数据都是可变长度的符号序列组成,由于语言具有自然的顺序排列,因此通常将符号上的联合概率分解为条件概率的乘积: 学习某项单一的任务可以用概率学中的条件概率...移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!

79620

C语言——C分支和循环

前言 C⾔是结构化的程序设计⾔,这⾥的结构指的是顺序结构、选择结构、循环结构,C⾔是能够实现这三种结构的,其实我们如果仔细分析,我们⽇常所⻅的事情都可以拆分为这三种结构或者这三种结构的组合。...⽐:要求输⼊⼀个整数,判断输⼊的整数是0,还是正数或者负数。...C⾔中, 0 表⽰假,所有⾮零值表⽰真。⽐, 20 > 12 返回 1 , 12 > 20 返回 0 ,关系表达式常⽤于 if 或 while 结构。...C⾔中提供了 break 和 continue 两个关键字。...count++; } } printf("\ncount=%d ", count); return 0; } 十 一、goto 语句 goto 语句和跳转标号,可以实现在同⼀个函数内跳转到设置好的标号处进行执行语句

10810

c语言的三种语句

是结构化的程且序设计⾔,这⾥的结构指的是顺序结构、选择结构、循环结构,C⾔是能够实现这三种结构的,其实我们如果仔细分析,我们⽇常所⻅的事情都可以拆分为这三种结构或者这三种结构的组合 ​ 一、分支语句...2.switch语句 1.除了 if 语句外,C⾔还提供了 switch 语句来实现分⽀结构。...⽤ break 才能在跳出 switch 句,如果某⼀个 case 语句的后边没有 break 语句,代码会继续往下执⾏,有可能执⾏其他 case 语句中的代码,直到遇到...就⽐如上⾯的代码就执⾏了 case2中的语句 在使⽤ switch 语句的时候,我们经常可能遇到⼀种情况,⽐ switch 后的表达式中的值⽆法匹 配代码中的 case 语句的时候...语句和跳转标号, goto 语句可以实现在同⼀个函数 内跳转到设置好的标号处。

11110

【源头活水】mBART:多语言翻译训练模型

对于低资源和高资源,查看图5,准备了10^4对到10^7对微调数据,对于模型性能的影响。 7. 类似的模型有M2M100 和MBart-50, 都是由facebook开源的。...例如,对一种语言对(韩语-英语)的双文本进行微调,就可以创建一个模型,该模型可以从单语言训练集(如意大利-英语)中的所有其他语言进行翻译,而无需进一步的训练。...由于不同下游数据集的大小不同,我们总是对超参数(架构、dropout等)进行网格搜索,以找到最佳的非训练配置。 所有模型都使用相同的单词(§2.1)。...与传统的半监督方法(backtranslation)和其他MT的训练相比(Lample和Conneau,2019;Song等人,2019),我们在更多的单数据上训练mBART,架构相对更深。...学习: 按照Lample和Conneau(XLM,2019),我们用mBART权重初始化翻译模型,然后学习预测单语句子,条件是由on-the-fly BT生成的源句。

4.2K30

Transformer全靠数据堆?那没有数据怎么办?LUT告诉你「冇问题」|AAAI 2021

随着基于Transformer[1]编码器-解码器的模型在⽂本⽣成、机器翻译等任务上的成功,这类模型也被运⽤到了⾳翻译中,⽐speech Transformer[2]。...这也是为何在很⻓⼀段时间,端到端⾳翻译系统性能不如级联模型的原因。 所以挑战出现了:如何利⽤有限的标注数据尽极⼤可能提升端到端⾳翻译的性能呢?...本⽂核⼼思想是尽可能的利⽤标注数据中「转写⽂本」的作⽤,并利⽤额外⼤规模单训练的⾔模型来辅助监督,架起从⾳到⽂本的跨模态转变的桥梁。...语义编码器的核⼼思想是让⾳经过了声学编码和语义编码之后的表示与转写⽂字直接经过训练好的表示能对⻬,⽽我们认为训练的BERT模型能很好的刻画⽂本语义信息。...语义编码器可充分利⽤转写和其训练表示作为监督;LUT模型也可以利⽤相较⼤量的⾳识别(ASR)数据辅助训练,进⼀步提升翻译效果。

19430

Transformer全靠数据堆?那没有数据怎么办?LUT告诉你「冇问题」|AAAI 2021

随着基于Transformer[1]编码器-解码器的模型在⽂本⽣成、机器翻译等任务上的成功,这类模型也被运⽤到了⾳翻译中,⽐speech Transformer[2]。...这也是为何在很⻓⼀段时间,端到端⾳翻译系统性能不如级联模型的原因。 所以挑战出现了:如何利⽤有限的标注数据尽极⼤可能提升端到端⾳翻译的性能呢?...本⽂核⼼思想是尽可能的利⽤标注数据中「转写⽂本」的作⽤,并利⽤额外⼤规模单训练的⾔模型来辅助监督,架起从⾳到⽂本的跨模态转变的桥梁。 ?...语义编码器的核⼼思想是让⾳经过了声学编码和语义编码之后的表示与转写⽂字直接经过训练好的表示能对⻬,⽽我们认为训练的BERT模型能很好的刻画⽂本语义信息。...语义编码器可充分利⽤转写和其训练表示作为监督;LUT模型也可以利⽤相较⼤量的⾳识别(ASR)数据辅助训练,进⼀步提升翻译效果。

47520

世界杯来了,Towhee 带你多语言「以文搜球」!

四年一度的世界杯已正式拉开战幕,各小组比赛正如火荼地进行中。...准备工作 为了之后的向量存储和检索,我们需要事先启动 Milvus 服务,具体教程可以参考 Milvus 官网文档[5]。...插入数据 当准备工作完成后,我们可以利用 Towhee 接口[8] 实现一下流程: 根据图片路径读取并解码图片 利用训练模型生成图片向量 将向量与对应的图片路径插入事先准备好的 Milvus 集合 import...同理可见,如果有一个算子使用了支持多种语言的训练模型,我们就可以搭建一个同时支持多种语言查询的「以文搜图」服务。 下面就是这样一个例子,同时也展示了如何在 Towhee 流水线中使用自定义算子。...image_path', 'image']() .select['text', 'image', 'score']() .show() ) 分别查询中文、英文、西班牙

82330
领券