首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepText:Facebook的文本解析引擎

语言不同要求的处理方式也有差别,比如方言和不通的拼写方式就是最好的例子。通过深度学习,我们能够降低对语言特定知识相关的依赖,系统可以在不需要或者很少的预处理情况下也能够进行学习。...比如英语和西班牙的“happy birthday”和“feliz cumpleaños”在同一个嵌入空间里离得非常近。...例如有人会发帖说:“我想要$200卖掉旧自行车,有人感兴趣?”。DeepText能够检测到这个帖子是在卖东西,然后提取一些有用的信息,包括正在卖东西以及东西的价钱。...具体的改进有以下几点。 更好地理解人们的意图 在Facebook上个性化体验最重要的一部分是为人们推荐相关内容。要做到这一点,必须将指定文本对应到一个具体的主题,这就需要提供大量的标签数据。...Facebook上非结构化数据提供了一个独一无二的机会,用多种不同语言对文本解析系统进行自动训练,使得自然语言处理技术的发展能更进一步。

1.4K20

Facebook最新对抗学习研究:无需平行语料库完成无监督机器翻译

相反,单数据更容易找得到,而且许多具有有限并行数据的语言仍然拥有大量的单数据。 ? 在半监督环境中,我们已经进行了多次尝试,试图利用单数据来提高机器翻译系统的质量。...另一种在目标端使用单数据的方式是用语言模型来增强解码器(Gulcehre等人于2015年提出)。...之前关于零资源(zero-resource)机器翻译的研究也依赖于标记信息,它们不是来自于那些有用的语言对,而是其他相关的语言对(Firat等人于2016年、Johnson等人于2016年、Chen等人于...其中,x是目标,C(x)是噪声输入,x^是重建。右(翻译):模型被训练用以翻译另一个领域的句子。...我们所做的唯一假设是每种语言都存在一个单语料库。这个假设有两个有趣的原因。 首先,当我们遇到一个我们没有注释的新语言对,就可以使用它。其次,它对任何好的半监督方法预期会产生一个强大的下界表现。

91850
您找到你想要的搜索结果了吗?
是的
没有找到

出海应用本地化时遇见单复数字串怎么办?

以阿拉伯举例,它的名词单复数格式变化有6种之多,俄罗斯、乌克兰、波兰等有4种,拉脱维亚、立陶宛等有3种。更别说,各语言下的细则还有差异。...把字串做下拆分,再用one, zero, two, few, many, other六类index分别做标注(六个类别下各语言对应的数字规则可参考https://unicode-org.github.io...同时新建两条字串b、c,这两个变量%1s、%2s分别调用字串b、字串c。 字串b:%1$d 张交通卡,需要进行单复数拆分; 字串c:%1$d 张,需要进行单复数拆分。...(此时对应数的概念为1,index为one) 确认要删除选中的%d首歌曲?...这个是因为当支持的语种众多,且包含阿,为了字串管理方便,可以统一把单复数字串在源(此处为英文)中拆分为6条。

3.7K20

一个模型翻译103 种语言!谷歌500亿参数M4模型突破多语言神经翻译极限

在分布的一端,有像法语、德语和西班牙这样的高资源语言,它们有数十亿个并行示例,而在另一端,像约鲁巴、信德语和夏威夷这样的低资源语言的监督数据只有几万个。...在所有语言对上的数据分布和在这些特定语言对上训练的双语baseline的相对翻译质量(BLEU分数)。...考虑比较是在双语基线(即仅在特定语言对上训练的模型)和具有与单个双语模型相似的表示能力的单个多语言模型之间进行的,翻译质量提高可以预知,但结果令人鼓舞。...单个大规模多语言模型与针对103种语言对中的每一种都进行训练的双语基线模型的翻译质量比较。...多语言机器翻译能帮上忙?我们将M4方法视为服务下1000种语言的垫脚石。从这种多语言模型开始,可以很容易地扩展到新的语言、域和下游任务,即使并行数据不可用。

1K31

Facebook全新无监督机器翻译法,BLUE测试提升超过10分!

不过,传统的统计机器翻译也好,NMT也罢,都需要大量的训练数据,比如中英、英德、英法等大量语言对。而对于训练数据较少的语种,比如尼泊尔,就很难应对了。...—不需要任何翻译好的语言对。...这个单模型比较好获得,只要有小语种(比如乌尔都)的大量单数据集就可以。英语的单模型则更好构建了。 通过使用单模型对逐字翻译模型进行优化,就得到了一个比较原始的机器翻译系统。...A) 构建两种语言的词嵌入模型;B) 通过旋转对齐词嵌入进行词到词的翻译;C) 通过单语种模型训练改善;D) 反向翻译。...使用这种方法得到的翻译结果,与使用100,000个语言对进行训练的监督模型效果相当。

88220

500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

大规模多语言机器翻译 尽管跨语言对数据倾斜是 NMT 任务中的一大挑战,但这种倾斜也为研究迁移创造了一种理想情景,在一种语言上训练得到的信息可以应用到其他语言的翻译中。...法语、德语、西班牙等数据丰富的语言占据分布的一端,提供了数十亿的平行语料;约鲁巴、信德语、夏威夷等数据匮乏的语言占据分布的另一端,只有几万的语料。 ?...所有语言对的数据分布(取对数)和在每个特定语言对上训练得到的双语基线的相对翻译质量(BLEU 分数)。...效果是已知的,但却非常鼓舞人心,因为比较是在双语基线(即只在特定语言对上训练得到的模型)和单个多语言模型之间进行的,后者拥有类似于单个双语模型的表征能力。...多语言机器翻译系统可以拯救这些语言?谷歌认为,M4 是通向另外 1000 种语言翻译的基石。从这类多语言模型开始,即使没有平行语料,我们也可以轻松地将机器翻译扩展到新的语言、领域和下游任务中去。

38710

Facebook开源增强版LASER库,包含93种语言工具包

利用 LASER 获得的句子嵌入在平行语料库挖掘上表现不错,在 BUCC(2018 Workshop on Building and Using Comparable Corpora)4 个语言对中 3...个语言对的共享任务上达到了当前最佳。...与以前要求句子必须是英语的方法相比,本文研究者的系统是完全使用目标语言的,并且支持不同语言中的各种前提和假设。 ? 该图表明 LASER 是如何确定 XNLI 数据集中不同语言句子之间关系的。...Facebook 研究者只需要计算所有语言对之间的距离,并选择最近的一对。这种方法通过考虑最近语句和其他最近邻之间的间隔而得到进一步改进。该搜索通过 Facebook 的 FAISS 库高效完成。...该方法可用于在使用任意语言对的情况下,挖掘 90 多种语言中的平行数据。这有助于改进众多依赖平行训练数据的的 NLP 应用,包括低资源语言的神经机器翻译。

1.4K10

500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

大规模多语言机器翻译 尽管跨语言对数据倾斜是 NMT 任务中的一大挑战,但这种倾斜也为研究迁移创造了一种理想情景,在一种语言上训练得到的信息可以应用到其他语言的翻译中。...法语、德语、西班牙等数据丰富的语言占据分布的一端,提供了数十亿的平行语料;约鲁巴、信德语、夏威夷等数据匮乏的语言占据分布的另一端,只有几万的语料。 ?...所有语言对的数据分布(取对数)和在每个特定语言对上训练得到的双语基线的相对翻译质量(BLEU 分数)。...效果是已知的,但却非常鼓舞人心,因为比较是在双语基线(即只在特定语言对上训练得到的模型)和单个多语言模型之间进行的,后者拥有类似于单个双语模型的表征能力。...多语言机器翻译系统可以拯救这些语言?谷歌认为,M4 是通向另外 1000 种语言翻译的基石。从这类多语言模型开始,即使没有平行语料,我们也可以轻松地将机器翻译扩展到新的语言、领域和下游任务中去。

57240

学界 | FAIR新一代无监督机器翻译:模型更简洁,性能更优

https://arxiv.org/pdf/1804.07755.pdf 摘要:机器翻译系统在某些语言上取得了接近人类水平的性能,但其有效性在很大程度上依赖大量双语文本,这降低了机器翻译系统在大多数语言对中的适用性...尽管最新进展表明,使用神经网络方法的几种语言对的翻译表现已经接近人类水平(Wu et al., 2016; Hassan et al., 2018),但其他研究也显露出一些公开的难题(Koehn and...不幸的是,绝大多数语言对的平行语料很少:学习算法需要更好地利用单数据,以扩大 MT 的应用范围。 大量文献研究了在有限的监督下使用单数据来提升翻译性能的问题。...A)两个单数据集。标记对应于句子(详细信息请参见图例)。B)原则一:初始化。比如,这两个分布通过使用推断的双语词典执行逐词翻译而大致对齐。C)原则二:语言建模。...从这次(反向)翻译开始,我们使用目标语→源模型(连续箭头)来重建初始语言中的句子。重建结果与初始语句的差异为训练目标语→源模型参数提供了误差信号。

1K60

【源头活水】mBART:多语言翻译预训练模型

对于无监督的情况,我们看到了一致的改进,并为关联性较低的语言对产生了第一个非生成结果(例如,在尼泊尔-英语上的9.5个BLEU增益)。...例如,对一种语言对(如韩语-英语)的双文本进行微调,就可以创建一个模型,该模型可以从单语言预训练集(如意大利-英语)中的所有其他语言进行翻译,而无需进一步的训练。...也可以使用其他的噪声类型,例如Lample等人(2018c)中的噪声类型,但我们将最佳噪声策略的探索留给未来的工作。...一个常见的解决方案是从backtranslation中学习(Artetxe等人,2017;Lample等人,2018c)。我们表明,mBART为这些方法提供了一个简单有效的初始化方案(§5.1)。...数据集:我们只考虑X→En翻译,从§3.1中选择了12种语言对的位数,涵盖了印度(Ne、Hi、Si、Gu)、欧洲语言(Ro、It、Cs、Nl)、东亚语言(Zh、Ja、Ko)和阿拉伯(Ar)。

4.3K30

人类语言遇上编程语言

如果你会说英语,学习其他印欧语系的语言(比如法语和西班牙)就会比较容易。...然而,了解英语对于学习印欧语系以外的语言帮助就没有那么大了——比如印地、阿拉伯或者日语,它们与英语、法语相比有着显著的不同。 我的编程语言学习经历就是一个很好的例子。...最开始学习的两门编程语言是BASIC和PHP,学完这两种语言之后,再学习其它类似的语言,比如CC++、C#、MATLAB、Javascript、Ruby和Python就易如反掌了,我只需要了解它们之间的区别就好了...对编程语言从哪里来这个问题感到好奇?编程语言的来源有很多。它们可能来源于一个学校计算机科学课程的编译器项目,后来逐渐演变成了一门语言。...计算机对于拟接收的指令要求非常的精确严谨。此外,计算机没有接受过像人类那样的消除表达歧义的训练。所以在很多方面,一门编程语言的优劣也可以由程序员编程时出错(也就是bug)的概率来衡量。

10.9K60

开发 | Facebook 开源增强版 LASER 库:可实现 93 种语言的零样本迁移

基于 LASER,句子嵌入在平行语料库的挖掘上的表现也很强大,并在 BUCC 4 个语言对中 3 个语言都对的共享任务上取得了最佳表现(BUCC 即 2018 Workshop on Building...大多数语言都与目标语言保持对齐,不过并不要求它们必须对齐。 这项工作开展之初,Facebook 只在不到 10 种欧洲国家的语言上训练模型,并且这些语言都用相同的拉丁脚本进行编写。...与此前要求句子一定要用英语表示的方法相比,Facebook 的系统完全可以使用多种语言,并且还支持任意组合不同语言的前提和假设。 ?...同样的方法也适用于使用任意语言对来挖掘 90 多种语言的平行数据。这一方法有望显著地改进大量依赖于平行训练数据的 NLP 应用,包括低资源语言的神经机器翻译。...该研究中的句子嵌入在平行语料库挖掘上的表现也非常强大,在 BUCC 共享任务的共 4 个语言对中的 3 个中都获得了当前最佳表现。

1.4K30

EMNLP 2018 | 结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」

选自arXiv 作者:Emmanouil Antonios Platanios等 机器之心编译 参与:白悦、刘晓坤 通用和专用 NMT 模型分别在相似语言对和罕见语言对的翻译中具有优势,但这也反映了各自的劣势...半监督:可以使用单数据。 可扩展:通过在语言间使用大量但可控的共享来减少参数的数量,从而减少大量数据的需求,如 Johnson 等人所述(2017)。...我们展示了这种简单的修正如何使系统使用单数据进行训练并实现 zero-shot 翻译。...百分比的并列行显示训练时使用多少部分(1%、10%、100%)的平行语料库;其余的仅用作单数据。表中显示了 BLEU 和 Meteor 指标的结果。...「C4」下标表示用于受控参数共享的 CPG 的低级版本(参见第 3.1 节),使用等级 4 等。每种情况下的最佳得分加粗显示。 ? 本文为机器之心编译,转载请联系本公众号获得授权。

52710

C语言系列】为什么要学习C语言?C语言有哪些优势

退一万步,为什么选择C而不是C++呢?” 不止一个学生问到我:“老师,为什么我们的应用程序设计要学C语言而不是别的?C语言不是已经过时了吗?...如果现在要写一个Windows程序,用VB或Dephi开发多快呀,用C行吗?退一万步,为什么选择C而不是C++呢?”   这个问题三言两还真说不全。...简单来说,C语言是计算机程序语言的基础,是实用的程序设计工具,学好C言对你今后学习JAVA、C++、VB等可以打下良好的基础,因为这些语言大部分都是由C语言扩充或衍生而来的。...站在本专业的角度看,虽然信息管理对程序设计的要求不如计算机专业那么高,但如果你不懂得C,基本上就很难理解程序设计的思想,因为想真正学会程序设计就不可能不跟数据结构打交道,而初学者如果直接从VB或Java...他们都是用C语言编写的。就因为不想学习一门新的语言,你就准备限制你能得到工作的机会? 4.C的程序比其他用别的语言写的程序,实现相同的功能,它用的代码行数更少,而它带来的运行效率却更快。

8.3K130

入门 | 无需双语语料库的无监督式机器翻译

难点在于某些语言对很难获取大量数据(来使用深度学习的力量)。 机器翻译的问题 如上所述,神经机器翻译最大的问题是需要双语语言对数据集。...对于英语、法语这类广泛使用的语言来说,这类数据比较容易获取,但是对于其他语言对来说就不一定了。如能获取语言对数据,则该问题就是一个监督式任务。 解决方案 论文作者指出如何将该任务转换成无监督式任务。...西班牙小说。注意两部小说未必一样。 也就是说,作者发现如何学习两种语言之间共同潜在空间(latent space)。 自编码器简单回顾 自编码器是用于无监督任务的神经网络的一种宽泛类别。...他们用 C() 表示噪声函数。C() 以输入语句为输入,然后输出该语句的带噪声版本。 有两种添加噪声的方法。...之后,使用上述的噪声函数 C() 应用到 y 上,得到 C(y)。语言 A 的编码器将 C(y) 编码,然后由语言 B 的解码器将其解码,重构出 C(y) 的无噪声版本。

1.1K70

学界 | 对比神经机器翻译和统计机器翻译:NMT的六大挑战

考虑了两个语言对:英语-西班牙和德语-英语。 挑战一:领域误匹配(Domain Mismatch) 单词表达为不同风格时会有不同的译文和意义。...对于 SMT 来说,语言模型在每个分区的西班牙部分中训练。我们还提供了 SMT 和大型语言模型(LM)的对比。 ?...挑战五:词对齐 注意力机制是合适的词对齐方法? 词对齐(word alignment)的概念在 SMT 和 NMT 中是非常不同的。...最优的束尺寸从 4(捷克到英语)到大约 30(英语到罗马尼亚)不等。质量降低的主要原因是射束越宽,翻译的长度越短。 总结 最后虽然神经机器翻译有这些困难,当我们不能否认的是它十分高效。

1.9K80

假如给你一次机会重新选择,计算机专业选C++ 还是Java?

已经从事软件开发十几年,C++和java跟着做过好多项目,相对来讲跟C++的感情更加深刻些,毕竟被折腾的时间最长印象也最深刻,刚入行一年就跟着做C++项目,开始被泛型编程里面的各种规则折腾的够呛,发现和自己在学校学的完全不是一码事...后来用java做项目开发是C++技能成熟之后去做的,所以接手去做已经简单太多了,能深深体会到一种幸福优越感,毕竟java的语法细节和C++不可同日而,但并不意味着java做起来就比较简单,java框架思想要求更高...,有个东西紧迫着学东西做项目也快,毕竟一个程序员需要紧跟时代的步伐,不能满足之前做了多少项目混了多少经验,java做起来相对C++有种很爽的感觉,起码不用考虑指针的东西,但整体来讲还是没有C++用起来有感觉...,所以技术生涯从事的第一个编程语言对于后续的影响还是挺大的, 技术后续掌握了多种编程语言,如同每个人对于初恋都会念念不忘是一个道理。...编程语言本质上讲就是一种工具,但选择不同的编程语言就意味着会选择不同的编程方向,c/c++主要是底层开发,java,python等属于高级语言开发方向和未来的编程方向的发展息息相关,其实就是重新选择一次编程方向

1.7K10
领券