首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

跨语言嵌入模型调查

跨语言嵌入模型通常使用以下四种不同方法: 单映射:这些模型最初大量语料库训练单语言嵌入。然后,他们学习不同语言表达之间线性映射,使他们能够未知单词从源语言映射到目标语言。...为了达到这个目的,他们翻译源语言中最常用5000个单词并将这5000个翻译对用作双语词典。...为此,他们提出在训练期间单词向量归一化为单位长度,这使得内积与余弦相似性相同,并将所有单词向量放置超球面上作为副作用,如图5所示。...他们计算源语言中每个单词与平行语料库目标语言中每个单词对齐次数,并将这些计数存储在对齐矩阵 .为了投射一个词 从源代表 到它在目标嵌入空间 目标嵌入空间中,他们只是取平均值翻译...双语跳读 Luong等人 跳跃词扩展到跨语言环境,并使用跳跃词目标作为单和跨语言目标。与其仅仅预测源语言中周围词语,他们使用源语言中词语来额外地预测其目标语言中对齐词语,如图13所示。

6.8K100

NLP输出文本评估:使用BLEU需要承担哪些风险?

这样我们就可以系统训练过程,为其提供反馈,也就是提供一种可能改变来提升翻译质量,使分数越来越接近目标分数,观察它们同一个任务上分数表现,所训练系统进行对比。... “I ate” 例子,输出语句为两个单词长度,最接近参考语句有四个词长度。这给了我们 0.36 惩罚因子,当我们 bi-gram 精度得分为 1 时,我们最终得分降到了 0.36。...作为机器翻译系统终端用户,我可以接受前两个句子。虽然它们和参考翻译不完全相同,但它们理解意思是对。然而,第三句是完全无法接受,它完全改变了原文意思。...我不是伟大语法学家,但我知道自然语言中存在很多重要内部语法结构,如果你打乱句子单词顺序,你可能会得到一堆毫无意义单词或具有完全不同含义语句。...TERp(即 TER-plus),是 TER 扩展,它也同样考虑了释义、词干和同义词。 hLEPOR,是一种旨在更好地适用于形态复杂语种(土耳其或捷克度量指标。

1.1K30
您找到你想要的搜索结果了吗?
是的
没有找到

Facebook开源增强版LASER库,包含93种语言工具包

LASER 所有语言共同嵌入到一个共享空间中(而不是为每种语言建立一个单独模型),从而实现这样结果。一起开源还包括涵盖 100 多种语言多语言测试集。...句子编码器是 PyTorch 实现,只需要很少外部依赖。 资源有限语言可以从多个语言联合训练受益。 该模型支持一个句子中使用多种语言。...这使得句子表征可以互相比较,并将它们直接输入分类器。 ? 上图说明了 LASER 架构。 这些句子嵌入通过线性变换初始化解码器 LSTM,并且还在每个时间步和其输入嵌入拼接。... 14 种目标语言中,模型 8 种语言上零数据表现是应用于英语时性能 5% 上下区间。这 8 种语言包括与英语亲属关系远俄语、汉语、越南等。...以前方法只会考虑同一语言中前提和假设。 该句子编码器也可被用于挖掘大型单语言文本集合平行数据。Facebook 研究者只需要计算所有语言对之间距离,并选择最近一对。

1.3K10

Python 自然语言处理实用指南:第一、二部分

搜索引擎返回相关结果,到自动完成您在电子邮件输入下一个单词,从自然语言中提取见解好处显而易见。...在此示例,我们创建一个基本词袋分类器,以对给定句子语言进行分类。 设置分类器 在此示例,我们选择西班牙和英语句子: 首先,我们每个句子分成一个单词列表,并将每个句子语言作为标签。...分词 接下来,我们学习 NLP 分词化,这是一种预处理文本方式,可以输入到模型。 分词将我们句子分成较小部分。 这可能涉及一个句子分成单个单词,或者整个文档分解成单个句子。...自然语言中,不同单词句子可以具有不同功能。 考虑以下: The big dog is sleeping on the bed 我们可以根据句子每个单词功能来“标记”此文本各个单词。...在这种情况下,最好从输入文本删除任何长整数。 词干提取和词形还原 言中,变体是如何通过修改共同词根来表达不同语法类别(时态,语气或性别)

1.2K10

使用深度学习进行语言翻译:神经网络和seq2seq为何效果非凡?

最简单方法是使用目标语言中对应词替换要翻译句子每个词。下面是一个西班牙到英语逐词翻译简单例子: ? 我们只是简单地每个西班牙语词用对应英语词替换了。...比如说,也许需要将常见 2 词短语作为单个词组进行翻译。另外你也许还要交换名词和形容词顺序,因为它们西班牙顺序和在英语是相反: ? 这种方法有用!...编码(Encodings) 另一个需要回顾是编码,我们 Part 4 脸部识别讨论过。要解释编码,让我们先绕道看看如何用一台计算机来分辨两个人。...我们知道了如何使用一个 RNN 一个句子编码为一系列独特数字,这对我们有什么帮助?这里事情才开始变得有趣! 如果我们采用两个 RNN 并将它们端到端连接起来会怎样?...但如果我们能够训练第二个 RNN 原英语解码成西班牙会怎样呢?我们可以使用平行语料库训练数据对它们进行训练: ? 就像这样,我们有了一个英语词序列转换为对应西班牙通用方法。

1.6K70

40种语言、9项推理任务,谷歌发布新NLP基准测试Xtreme

但幸运是,许多语言共享大量基础结构。比如在词汇层面上,语言通常具有源自同一来源单词,例如,英语“desk”和德语“Tisch”都来自拉丁“disus”。...其中包括一些未被充分研究语言,例如在印度南部、斯里兰卡和新加坡使用达罗毗荼语系语言泰米尔,主要在印度南部使用泰卢固和马拉雅拉姆,以及非洲使用尼日尔-刚果语系斯瓦希里和约鲁巴。...Xtreme9项任务涵盖了一系列基本范式,包括句子分类(即将一个句子分配给一个或多个类)和结构化预测(预测实体和词类等对象) ,以及句子检索(对一组记录进行查询匹配)和高效问答。 ?...Xtreme初步实验,谷歌一个研究团队发现,即使是最先进多语言模型,BERT、XLM、XLM-r和M4,也都没有达到预期水平。...其中,BERT对西班牙准确率为86.9/100,日语则只有49.2/100,要转换成非拉丁文字也十分困难,而所有的模型都很难预测到英语训练数据没有看到远方语言实体,比如,印度尼西亚和斯瓦希里准确率分别为

66820

入门 | 无需双语语料库无监督式机器翻译

它们目前该任务是最优,而且切实可行,连 Google Translate 都在使用。机器翻译需要语句级别的平行数据来训练模型,即对于源语言中每个句子,目标语言中都有对应译文。...该任务,所需唯一数据是两种语言中每种语言任意语料库,英语小说 vs. 西班牙小说。注意两部小说未必一样。 也就是说,作者发现如何学习两种语言之间共同潜在空间(latent space)。...潜在空间捕捉数据特征(机器翻译,数据是句子)。如果可以学习对语言 A 和语言 B 馈送输入输出相同特征空间,那么就可以实现这两种语言之间翻译。...可以将其视为多标签分类问题,其中输入第 i 个 token 和输出第 i 个 token 对比。一个 token 就是一个单元,不能再继续分解。机器翻译,一个单词就是一个 token。...一种是,以 P_wd 概率从输入删除一个单词;另一种是,每个单词以下式约束从初始位置偏移: ? 这里,σ是第 i 个 token 偏移后位置。

1.1K70

不以英语为中心,百种语言互译,FB开源首个单一多语言MT模型

典型 MT 系统需要为每种语言和每种任务构建单独 AI 模型,但这种方法无法 Facebook 上进行有效推广,因为人们在数十亿个帖子中发布超过 160 种语言内容。...桥梁语言策略 接着,研究者提出了一种新桥梁挖掘(bridge mining)策略,其中按照语言分类、地域和文化相似性 100 种语言分成了 14 个语系。...这样做是因为,同一个语系的人(包含多种语言)往往交流更频繁,并将从高质量翻译收益。举例而言,一个语系中将涵盖印度境内使用孟加拉、印地、马拉地、尼泊尔、泰米尔和乌尔都等多种语言。...如上述印度境内所使用言中,印地、孟加拉和泰米尔是雅利安桥梁语言。然后,研究者挖掘这些桥梁语言所有可能组合并行训练数据。...研究者发现,反向翻译策略大规模语言转换特别有效,比如亿万个单语句子转换为并行数据集。 具体而言,研究者使用反向翻译策略作为已经挖掘语言对方向训练补充,合成反向翻译数据添加到挖掘并行数据

36210

谷歌详述Smart Linkify核心动力——机器学习

文本寻找电话号码和邮政地址是一个难题,”Google AI软件工程师Lukas Zilka一篇博文中写道,“不仅人们如何编写它们有很多变化,而且代表什么类型实体也常常不明确(例如’确认号码:...这两个网络都对第三个模型生成数据进行了训练,这些数据从网络抓取电话号码、地址、产品、位置和业务名称,并向它们添加随机文本上下文和短语(例如,确认号和ID)。...以下是整个过程工作原理:要分析文本被分成单词,从这些单词,生成特定最大长度所有可能子序列。...机器学习,这是通过这些部分表示为单独特征来完成,实际上,输入文本被分成几个部分,分别馈送到网络。” 为此,单词转换为字符n-gram,这种技术将它们表示为一定长度所有字符子序列集合。...在实践,鉴于句子“John应该在星期二打电话1-800-944-9494”,Smart Linkify(1)“John应该打电话”与“1-800-944-9494”分开,(2)“John”分类应将

50620

开发 | Facebook 开源增强版 LASER 库:可实现 93 种语言零样本迁移

该工具包现在可应用于使用 28 种不同字符串编写 90 多种语言也就是说,它将所有语言一同嵌入到一个独立共享空间中(而不是为每一种语言都创建一个单独模型),从而实现在 90 多种语言中应用。...这使得研究人员可以比较句子表示并将它们直接输入到分类器。 ? 这张图展示了 LASER 架构。 这些句子嵌入通过线性变换对解码器 LSTM 进行初始化,并在每个时间步连接到它输入嵌入上。...Facebook 与英语和西班牙对齐公共平行数据 2.23 亿个句子上训练他们系统,对于每个小批量,他们都随机选择一种输入语言,并训练系统句子翻译成英语或者西班牙。...这使得研究人员能够基于最终句子嵌入,仅使用英文标注数据就学习一个分类器,并且不做任何修改情况下将该分类器迁移到 93 种语言中任意一种。...最后,研究人员引入了一个基于 Tatoeba 语料库创建包含 122 种语言对齐句子新测试集,并证明此项研究句子嵌入多语言相似性搜索取得了非常出色结果,即使是低资源言中也是如此。

1.4K30

一次搞定多种语言:Facebook展示全新多语言嵌入系统

我们使用另一种方法是收集大量英语数据来训练英语分类器,然后如果需要分类另一种语言文本(土耳其),则将土耳其语文本翻译成英语,然后译文发送给英语分类器。 但是,该方法也有一些缺陷。...词嵌入具有非常好属性,它们非常易于操作,并且相似意义词汇向量空间中彼此距离很近。一般而言,词嵌入是针对特定语言,每种语言词嵌入需要单独训练,且存在于完全不同向量空间。...例如,土耳其「futbol」和英语「scoccer」嵌入空间中距离非常近,因为它们不同语言中代表着相同意思。...为了实现跨语言文本分类任务,我们可以使用这些多语言词嵌入作为文本分类模型基本表征。由于新语言中单词嵌入空间中与已训练语言单词相近,所以分类器也能在新语言上执行良好。...然后我们利用词典所有嵌入空间投影到共同空间(英语)。词典从平行数据(即由两种不同语言意义相同句子对构成数据集)自动导出,平行数据也用于训练翻译系统。 我们利用矩阵嵌入投影到共同空间。

67070

一次搞定多种语言:Facebook展示全新多语言嵌入系统

词嵌入具有非常好属性,它们非常易于操作,并且相似意义词汇向量空间中彼此距离很近。一般而言,词嵌入是针对特定语言,每种语言词嵌入需要单独训练,且存在于完全不同向量空间。 ?...例如,土耳其「futbol」和英语「scoccer」嵌入空间中距离非常近,因为它们不同语言中代表着相同意思。 ?...为了实现跨语言文本分类任务,我们可以使用这些多语言词嵌入作为文本分类模型基本表征。由于新语言中单词嵌入空间中与已训练语言单词相近,所以分类器也能在新语言上执行良好。...然后我们利用词典所有嵌入空间投影到共同空间(英语)。词典从平行数据(即由两种不同语言意义相同句子对构成数据集)自动导出,平行数据也用于训练翻译系统。 我们利用矩阵嵌入投影到共同空间。...DeepText 包含多种词嵌入作为基本表征分类算法。我们 DeepText 中将多语言词嵌入作为基本表征来训练多语言模型,并将词嵌入「固定」,或在训练过程中保持其不变。

1.1K80

Vision Transformers 大有可为!

例如,要将一个句子从英语翻译成意大利,使用这种类型网络,将要翻译句子第一个单词与初始状态一起传递到编码器,然后下一个状态与该句子第二个单词一起传递到第二个编码器,依此类推直到最后一个单词。...进行注意力计算之前,表示单词向量与基于正弦和余弦位置编码机制相结合,该机制单词句子位置信息嵌入向量。...这一点非常重要,因为我们知道,在任何语言中单词句子位置都是非常相关,如果我们想做出正确评价,这是绝对不能丢失信息。...例如,如果我们假设我们已经翻译了前两个单词,并且我们想用意大利预测句子第三个单词,我们将把前两个翻译单词传给解码器。将对这些单词执行位置编码和多头部注意,结果将与编码器结果相结合。...他们建议是图像每一个单独patch(pxp),它们本身就是3个RGB通道上图像,并将其转换成一个c通道张量。然后这个张量分成p'部分,其中p'<p,示例p'=4

56530

神奇!无需数据即可进行机器翻译操作

深度网络优势之一就是机器翻译,甚至谷歌翻译现在也使用它们机器翻译,需要句子水平并行数据来训练模型,也就是说,对于源语言中每句话,都需要在目标语言中使用翻译语言。...它可以被认为是一个多标签分类,输入第i个令牌与输出第i个令牌进行比较。令牌是一个不能进一步被破坏单一单元。我们例子,它是一个单词。...它接收输入句子,并且输出这个句子噪声版本。 有两种不同方法来添加噪声。首先,可以简单地从输入删除一个单词,并使用一个P_wd概率。第二,每个单词都可以从原来位置改变。 ?...训练循环过程: 1.使用语言A编码器和语言B解码器来获得翻译 2.训练每一个自动编码器,以使一个未被破坏句子重新生成一个被损坏句子 3.通过对步骤1获得翻译进行破坏来改进译文,并重新创建它...在这个步骤,语言A编码器和语言B解码器是一起训练(同时也是语言B编码器和语言A解码器)。 注意,尽管步骤2和3是单独列出,但是它们权重都被更新了。

78360

自然语言处理:从基础到RNN和LSTM(下)

频率较高词是比较普通词,the,is,an,它不会显著改变句子意思。因此,适当地权衡单词以反映它们对一个句子意义有足够影响。 嵌入矩阵 嵌入矩阵是一种表示词汇表每个单词嵌入方法。...行表示单词嵌入空间维度,列表示词汇表单词。 为了一个样本转换成它嵌入形式,将其独热编码形式每个单词乘以嵌入矩阵,为样本提供单词嵌入。 ?...循环神经网络(RNN) 递归神经网络简称RNN,是神经网络重要变体,自然语言处理得到了广泛应用。...从概念上讲,它们与标准神经网络不同,因为RNN标准输入是一个单词,而不是标准神经网络整个样本。这使得网络能够灵活地处理不同长度句子,而标准神经网络由于其固定结构而无法做到这一点。...RNN句子每个单词视为时间“t”发生单独输入,并使用“t-1”处激活值,作为时间“t”处输入之外输入。下图显示了RNN体系结构详细结构。

1.2K30

自然语言生成演变史

神经网络最新进展RNN和LSTM允许处理长句,显着提高语言模型准确性。 马尔可夫链 马尔可夫链是最早用于语言生成算法之一。 它通过使用当前单词来预测句子下一个单词。...马尔可夫链考虑每个独特单词之间关系来计算下一个单词概率。 它们早期版本智能手机键盘中使用,为句子下一个单词生成建议。 ?...选择具有最高概率单词并将其存储存储器,然后模型继续进行下一次迭代。 ? RNN受到梯度消失限制。 随着序列长度增加,RNN不能存储句子中远处遇到单词,并且仅基于最近单词进行预测。...“为了正确预测下一个单词为”西班牙“,该模型在前面的句子侧重于”西班牙“一词,并使用单元格记忆”记住“它。该信息处理序列时由单元存储,然后预测下一个字时使用。...自我关注允许模型选择性地关注每个单词句子不同部分,而不是仅仅记住循环块(RNN和LSTM一些特征,这些特征通常不会用于几个块。这有助于模型回忆起前一句更多特征,并导致更准确和连贯预测。

75930

斯坦福Stanford.NLP.NET:集合多个NLP工具

-欢迎 该项目包含使用使用 IKVM.NET Stanford NLP.jar 软件包重新编译到.NET 构建脚本,这些软件经过测试可以有效工作,该工具包介绍网站是:https://sergey-tihon.github.io...它根据短语和单词之间联系来标记句子结构,并可指出哪个名词短语指向相同实体。 Stanford CoreNLP 是一个集成框架,可以让你轻松使用语言分析工具来分析一段文字。...3.Stanford.NLP.Parser:它适用于处理句子之中语法结构。例如,哪些单词是聚合在一起(作为短语)哪些单词是主题或对象动词。...概率解析器使用手工标记句子获得知识,试图对新句子产生有意义分析。这些基于统计解析器虽然仍然可能产生错误,但通常工作得很好。它们发展是 20 世纪 90 年代自然语言处理领域最大突破之一。...同时,该软件也可以简单地用作准确无索引随机上下文无关语法解析器。两者都可以作为性能良好统计解析系统使用。解析器,有一个 GUI(Java)可用于查看解析器短语结构树输出。

1.6K80

【TensorFlow 谷歌神经机器翻译】从零开始打造属于你翻译系统

RNN作为示例,并将LSTM作为一个循环单元。...高层水平上,NMT模型由两个循环神经网络组成:编码器RNN简单地处理输入源词汇,不进行任何预测; 另一方面,解码器RNN预测下一个单词同时处理目标句子。...图2:神经机器翻译——句子“I am a student”翻译成目标句子“Je suisétudiant”,这是一个深度循环架构例子。...对于训练过程,我们将为系统提供以下张量,它们是time-major格式,包含单词索引: encoder_inputs [max_encoder_time, batch_size]: 源输入单词 decoder_inputs...我们选择最有可能单词,即与最大logit值相关联id作为输出单词(这就是“greedy”行为)。例如在图3第一个解码步骤单词“moi”具有最高翻译概率。

2.1K40

搜索结果牛头不对马嘴?谷歌用BERT改进搜索引擎,做到更懂你

多个关键词插入空格,比如你想搜一篇机器学习医学上应用论文,那么你就会在搜索框输入“机器学习 医学”。 即使我们掌握了搜索引擎使用技巧,有时候并不能返回最佳查询结果。 ?...因此应该做到无论如何拼写或组合查询单词,都要弄清楚用户搜索内容,并从网络上返回有用信息。 这些年来,尽管谷歌NLP领域取得了很多重大突破,但有时做得还不够好,尤其是复杂或对话式查询。...引入BERT后,谷歌就能掌握这一细微差别,并且知道单词“ to”在这里实际上很重要,并且为该查询提供更相关结果。 ?...这项突破是谷歌研究Transformer结果:Transformer模型可处理与句子单词之间关联,而不是一个接一个地单独处理单词。...因此,谷歌可以采用从大量英语中学习模型,并将其应用于其他语言。 谷歌正在使用BERT模型来改进20多个国家或地区搜索引擎,其中包括使用韩语、印地和葡萄牙等语言地方。

46020

Transformer:隐藏机器翻译高手,效果赶超经典 LSTM!

AI 科技评论按:自然语言处理任务循环神经网络是一种常见方法,但近来,一种只依赖于注意力机制特定神经网络模型已被证明它对于常见自然语言处理任务效果甚至优于循环神经网络模型,这个模型被称为变换器...序列到序列(Seq2Seq)是一种神经网络,它将给定元素序列(例如句子单词序列)转换为另一个序列。 Seq2Seq 模型很适用于翻译,它可以一种语言单词序列转换为另一种语言中单词序列。...这是由于我们没有可以存储序列如何被输入模型循环网络,而序列由其元素顺序决定,所以我们需要以某种方式给出序列每个单词/部分相对位置。这些位置被添加到每个单词嵌入表示(n 维向量)。...在后文中,我们看到这种方法对于推断结果有何用处。 对于 Seq2Seq 模型和变换器,我们都做相同处理。...该元素将被填充到我们解码器输入序列第二个位置,该序列现在具有句子开头标记和其中第一个字(字符)。 编码器序列和新解码器序列输入到模型,取输出第二个元素并将其放入解码器输入序列。

84130
领券