c语言对缩进有要求吗 - 腾讯云开发者社区

语言不同要求的处理方式也有差别，比如方言和不通的拼写方式就是最好的例子。通过深度学习，我们能够降低对语言特定知识相关的依赖，系统可以在不需要或者很少的预处理情况下也能够进行学习。...比如英语和西班牙语的“happy birthday”和“feliz cumpleaños”在同一个嵌入空间里离得非常近。...例如有人会发帖说：“我想要$200卖掉旧自行车，有人感兴趣吗？”。DeepText能够检测到这个帖子是在卖东西，然后提取一些有用的信息，包括正在卖东西以及东西的价钱。...具体的改进有以下几点。更好地理解人们的意图在Facebook上个性化体验最重要的一部分是为人们推荐相关内容。要做到这一点，必须将指定文本对应到一个具体的主题，这就需要提供大量的标签数据。...Facebook上非结构化数据提供了一个独一无二的机会，用多种不同语言对文本解析系统进行自动训练，使得自然语言处理技术的发展能更进一步。

1.4K2 0

Facebook最新对抗学习研究：无需平行语料库完成无监督机器翻译

相反，单语数据更容易找得到，而且许多具有有限并行数据的语言仍然拥有大量的单语数据。 ? 在半监督环境中，我们已经进行了多次尝试，试图利用单语数据来提高机器翻译系统的质量。...另一种在目标端使用单语数据的方式是用语言模型来增强解码器（Gulcehre等人于2015年提出）。...之前关于零资源（zero-resource）机器翻译的研究也依赖于标记信息，它们不是来自于那些有用的语言对，而是其他相关的语言对（Firat等人于2016年、Johnson等人于2016年、Chen等人于...其中，x是目标，C(x)是噪声输入，x^是重建。右（翻译）：模型被训练用以翻译另一个领域的句子。...我们所做的唯一假设是每种语言都存在一个单语语料库。这个假设有两个有趣的原因。首先，当我们遇到一个我们没有注释的新语言对，就可以使用它。其次，它对任何好的半监督方法预期会产生一个强大的下界表现。

9405 0

您找到你想要的搜索结果了吗？

是的

没有找到

出海应用本地化时遇见单复数字串怎么办？

以阿拉伯语举例，它的名词单复数格式变化有6种之多，俄罗斯语、乌克兰语、波兰语等有4种，拉脱维亚语、立陶宛语等有3种。更别说，各语言下的细则还有差异。...把字串做下拆分，再用one, zero, two, few, many, other六类index分别做标注（六个类别下各语言对应的数字规则可参考https://unicode-org.github.io...同时新建两条字串b、c，这两个变量%1s、%2s分别调用字串b、字串c。字串b：%1$d 张交通卡，需要进行单复数拆分；字串c：%1$d 张，需要进行单复数拆分。...（此时对应数的概念为1，index为one）确认要删除选中的%d首歌曲吗？...这个是因为当支持的语种众多，且包含阿语，为了字串管理方便，可以统一把单复数字串在源语（此处为英文）中拆分为6条。

3.8K2 0

一个模型翻译103 种语言！谷歌500亿参数M4模型突破多语言神经翻译极限

在分布的一端，有像法语、德语和西班牙语这样的高资源语言，它们有数十亿个并行示例，而在另一端，像约鲁巴语、信德语和夏威夷语这样的低资源语言的监督数据只有几万个。...在所有语言对上的数据分布和在这些特定语言对上训练的双语baseline的相对翻译质量(BLEU分数)。...考虑比较是在双语基线(即仅在特定语言对上训练的模型)和具有与单个双语模型相似的表示能力的单个多语言模型之间进行的，翻译质量提高可以预知，但结果令人鼓舞。...单个大规模多语言模型与针对103种语言对中的每一种都进行训练的双语基线模型的翻译质量比较。...多语言机器翻译能帮上忙吗?我们将M4方法视为服务下1000种语言的垫脚石。从这种多语言模型开始，可以很容易地扩展到新的语言、域和下游任务，即使并行数据不可用。

1.1K3 1

Facebook全新无监督机器翻译法，BLUE测试提升超过10分！

不过，传统的统计机器翻译也好，NMT也罢，都需要大量的训练数据，比如中英、英德、英法等大量语言对。而对于训练数据较少的语种，比如尼泊尔语，就很难应对了。...—不需要任何翻译好的语言对。...这个单语模型比较好获得，只要有小语种（比如乌尔都语）的大量单语数据集就可以。英语的单语模型则更好构建了。通过使用单语模型对逐字翻译模型进行优化，就得到了一个比较原始的机器翻译系统。...A) 构建两种语言的词嵌入模型；B) 通过旋转对齐词嵌入进行词到词的翻译；C) 通过单语种模型训练改善；D) 反向翻译。...使用这种方法得到的翻译结果，与使用100,000个语言对进行训练的监督模型效果相当。

9072 0

500亿参数，支持103种语言：谷歌推出「全球文字翻译」模型

大规模多语言机器翻译尽管跨语言对数据倾斜是 NMT 任务中的一大挑战，但这种倾斜也为研究迁移创造了一种理想情景，在一种语言上训练得到的信息可以应用到其他语言的翻译中。...法语、德语、西班牙语等数据丰富的语言占据分布的一端，提供了数十亿的平行语料；约鲁巴语、信德语、夏威夷语等数据匮乏的语言占据分布的另一端，只有几万的语料。 ?...所有语言对的数据分布（取对数）和在每个特定语言对上训练得到的双语基线的相对翻译质量（BLEU 分数）。...效果是已知的，但却非常鼓舞人心，因为比较是在双语基线（即只在特定语言对上训练得到的模型）和单个多语言模型之间进行的，后者拥有类似于单个双语模型的表征能力。...多语言机器翻译系统可以拯救这些语言吗？谷歌认为，M4 是通向另外 1000 种语言翻译的基石。从这类多语言模型开始，即使没有平行语料，我们也可以轻松地将机器翻译扩展到新的语言、领域和下游任务中去。

3991 0

Facebook开源增强版LASER库，包含93种语言工具包

利用 LASER 获得的句子嵌入在平行语料库挖掘上表现不错，在 BUCC（2018 Workshop on Building and Using Comparable Corpora）4 个语言对中 3...个语言对的共享任务上达到了当前最佳。...与以前要求句子必须是英语的方法相比，本文研究者的系统是完全使用目标语言的，并且支持不同语言中的各种前提和假设。 ? 该图表明 LASER 是如何确定 XNLI 数据集中不同语言句子之间关系的。...Facebook 研究者只需要计算所有语言对之间的距离，并选择最近的一对。这种方法通过考虑最近语句和其他最近邻之间的间隔而得到进一步改进。该搜索通过 Facebook 的 FAISS 库高效完成。...该方法可用于在使用任意语言对的情况下，挖掘 90 多种语言中的平行数据。这有助于改进众多依赖平行训练数据的的 NLP 应用，包括低资源语言的神经机器翻译。

1.4K1 0

500亿参数，支持103种语言：谷歌推出「全球文字翻译」模型

5954 0

学界 | FAIR新一代无监督机器翻译：模型更简洁，性能更优

https://arxiv.org/pdf/1804.07755.pdf 摘要：机器翻译系统在某些语言上取得了接近人类水平的性能，但其有效性在很大程度上依赖大量双语文本，这降低了机器翻译系统在大多数语言对中的适用性...尽管最新进展表明，使用神经网络方法的几种语言对的翻译表现已经接近人类水平（Wu et al., 2016; Hassan et al., 2018），但其他研究也显露出一些公开的难题（Koehn and...不幸的是，绝大多数语言对的平行语料很少：学习算法需要更好地利用单语数据，以扩大 MT 的应用范围。大量文献研究了在有限的监督下使用单语数据来提升翻译性能的问题。...A）两个单语数据集。标记对应于句子（详细信息请参见图例）。B）原则一：初始化。比如，这两个分布通过使用推断的双语词典执行逐词翻译而大致对齐。C）原则二：语言建模。...从这次（反向）翻译开始，我们使用目标语→源语模型（连续箭头）来重建初始语言中的句子。重建结果与初始语句的差异为训练目标语→源语模型参数提供了误差信号。

1.1K6 0

Linux系统下各类压缩包的解压命令

显示过程信息 -f: 指定归档文件名 -M: 不创建条目的清单文件 -0: 只打包不压缩注意⚠️:这是数字0，不是字母o 4、unzip命令功能说明：解压缩zip文件语　　...-C 压缩文件中的文件名称区分大小写。 -j 不处理压缩文件中原有的目录路径。 -L 将压缩文件中的全部文件名改为小写。...语　　法：zip -AcdDfFghjJKlLmoqrSTuvVwXyz$-ll-t 压缩文件-i 补充说明：zip是个使用广泛的压缩程序，文件经它压缩后会另外产生具有"...-c 替每个被压缩的文件加上注释。 -d 从压缩文件内删除指定的文件。 -D 压缩文件内不建立目录名称。...- 压缩效率是一个介于1-9的数值。

2.8K1 0

人类语言遇上编程语言

如果你会说英语，学习其他印欧语系的语言（比如法语和西班牙语）就会比较容易。...然而，了解英语对于学习印欧语系以外的语言帮助就没有那么大了——比如印地语、阿拉伯语或者日语，它们与英语、法语相比有着显著的不同。我的编程语言学习经历就是一个很好的例子。...最开始学习的两门编程语言是BASIC和PHP，学完这两种语言之后，再学习其它类似的语言，比如C、C++、C#、MATLAB、Javascript、Ruby和Python就易如反掌了，我只需要了解它们之间的区别就好了...对编程语言从哪里来这个问题感到好奇吗？编程语言的来源有很多。它们可能来源于一个学校计算机科学课程的编译器项目，后来逐渐演变成了一门语言。...计算机对于拟接收的指令要求非常的精确严谨。此外，计算机没有接受过像人类那样的消除表达歧义的训练。所以在很多方面，一门编程语言的优劣也可以由程序员编程时出错（也就是bug）的概率来衡量。

10.9K6 0

【源头活水】mBART：多语言翻译预训练模型

对于无监督的情况，我们看到了一致的改进，并为关联性较低的语言对产生了第一个非生成结果（例如，在尼泊尔语-英语上的9.5个BLEU增益）。...例如，对一种语言对（如韩语-英语）的双文本进行微调，就可以创建一个模型，该模型可以从单语言预训练集（如意大利语-英语）中的所有其他语言进行翻译，而无需进一步的训练。...也可以使用其他的噪声类型，例如Lample等人(2018c)中的噪声类型，但我们将最佳噪声策略的探索留给未来的工作。...一个常见的解决方案是从backtranslation中学习（Artetxe等人，2017；Lample等人，2018c）。我们表明，mBART为这些方法提供了一个简单有效的初始化方案（§5.1）。...数据集：我们只考虑X→En翻译，从§3.1中选择了12种语言对的位数，涵盖了印度语（Ne、Hi、Si、Gu）、欧洲语言（Ro、It、Cs、Nl）、东亚语言（Zh、Ja、Ko）和阿拉伯语（Ar）。

4.5K3 0

开发 | Facebook 开源增强版 LASER 库：可实现 93 种语言的零样本迁移

基于 LASER，句子嵌入在平行语料库的挖掘上的表现也很强大，并在 BUCC 4 个语言对中 3 个语言都对的共享任务上取得了最佳表现（BUCC 即 2018 Workshop on Building...大多数语言都与目标语言保持对齐，不过并不要求它们必须对齐。这项工作开展之初，Facebook 只在不到 10 种欧洲国家的语言上训练模型，并且这些语言都用相同的拉丁语脚本进行编写。...与此前要求句子一定要用英语表示的方法相比，Facebook 的系统完全可以使用多种语言，并且还支持任意组合不同语言的前提和假设。 ?...同样的方法也适用于使用任意语言对来挖掘 90 多种语言的平行数据。这一方法有望显著地改进大量依赖于平行训练数据的 NLP 应用，包括低资源语言的神经机器翻译。...该研究中的句子嵌入在平行语料库挖掘上的表现也非常强大，在 BUCC 共享任务的共 4 个语言对中的 3 个中都获得了当前最佳表现。

1.5K3 0

EMNLP 2018 | 结合通用和专用NMT的优势，CMU为NMT引入「语境参数生成器」

选自arXiv 作者：Emmanouil Antonios Platanios等机器之心编译参与：白悦、刘晓坤通用和专用 NMT 模型分别在相似语言对和罕见语言对的翻译中具有优势，但这也反映了各自的劣势...半监督：可以使用单语数据。可扩展：通过在语言间使用大量但可控的共享来减少参数的数量，从而减少大量数据的需求，如 Johnson 等人所述（2017）。...我们展示了这种简单的修正如何使系统使用单语数据进行训练并实现 zero-shot 翻译。...百分比的并列行显示训练时使用多少部分（1%、10%、100%）的平行语料库；其余的仅用作单语数据。表中显示了 BLEU 和 Meteor 指标的结果。...「C4」下标表示用于受控参数共享的 CPG 的低级版本（参见第 3.1 节），使用等级 4 等。每种情况下的最佳得分加粗显示。 ? 本文为机器之心编译，转载请联系本公众号获得授权。

5501 0

在K8s上弹性深度学习训练利器｜Elastic Training Operator

当面临较复杂的模型训练或者数据量大时，单机的计算能力往往无法满足算力要求。...在抢占或价格计算等场景中，有时需要指定 worker 缩容，K8s 原生的编排元语 deployment，statefulset 无法满足指定缩容的场景。 ?...template: spec: containers: - command: - sh - -c...controller: true kind: TrainingJob name: elastic-training // 指向扩容对象TrainingJob uid: 075b9c4a...通过 count 配置缩容的数量，则通过 index 计算由高到低缩容 Worker。

1.5K1 0

移情别恋c++ ദ്ദി˶ｰ̀֊ｰ́ ) ——1.c++入门（2）

函数重载 C++⽀持在同⼀作⽤域中出现同名函数，但是要求这些同名函数的形参不同，可以是参数个数不同或者类型不同。这样C++函数调⽤就表现出了多态⾏为，使⽤更灵活。...C语⾔是不⽀持同⼀作⽤域中出现同名函数的。...const引⽤也可以引⽤普通对象，因为对象的访问权限在引⽤过程中可以缩⼩，但是不能放⼤。 ...“ra”: 不能给常量赋值，（ra也不可变） // 这⾥的引⽤是对b访问权限的缩⼩（b可变，但rb不可变） int b = 20; const int& rb = b; //rb++; // 编译报错...• C语⾔实现宏函数也会在预处理时替换展开，但是宏函数实现很复杂很容易出错的，且不⽅便调试，C++设计了inline⽬的就是替代C的宏函数。

861 0

【C语言系列】为什么要学习C语言？C语言有哪些优势

退一万步，为什么选择C而不是C++呢？” 不止一个学生问到我：“老师，为什么我们的应用程序设计要学C语言而不是别的？C语言不是已经过时了吗？...如果现在要写一个Windows程序，用VB或Dephi开发多快呀，用C行吗？退一万步，为什么选择C而不是C++呢？” 　　这个问题三言两语还真说不全。...简单来说，C语言是计算机程序语言的基础，是实用的程序设计工具，学好C语言对你今后学习JAVA、C++、VB等可以打下良好的基础，因为这些语言大部分都是由C语言扩充或衍生而来的。...站在本专业的角度看，虽然信息管理对程序设计的要求不如计算机专业那么高，但如果你不懂得C，基本上就很难理解程序设计的思想，因为想真正学会程序设计就不可能不跟数据结构打交道，而初学者如果直接从VB或Java...他们都是用C语言编写的。就因为不想学习一门新的语言，你就准备限制你能得到工作的机会吗？ 4.C的程序比其他用别的语言写的程序，实现相同的功能，它用的代码行数更少，而它带来的运行效率却更快。

8.3K13 0

zip 命令使用记录

语　　法：zip [-AcdDfFghjJKlLmoqrSTuvVwXyz$][-b ][-ll][-n ][-t ][-缩效率>][压缩文件][文件...-c 替每个被压缩的文件加上注释。 -d 从压缩文件内删除指定的文件。 -D 压缩文件内不建立目录名称。...-l 压缩文件时，把LF字符置换成LF+CR字符。 -ll 压缩文件时，把LF+CR字符置换成LF字符。 -L 显示版权信息。...-x 压缩时排除符合条件的文件。 -X 不保存额外的文件属性。 -y 直接保存符号连接，而非该连接所指向的文件，本参数仅在UNIX之类的系统下有效。...- 压缩效率是一个介于1-9的数值。

7981 0

入门 | 无需双语语料库的无监督式机器翻译

难点在于某些语言对很难获取大量数据（来使用深度学习的力量）。机器翻译的问题如上所述，神经机器翻译最大的问题是需要双语语言对数据集。...对于英语、法语这类广泛使用的语言来说，这类数据比较容易获取，但是对于其他语言对来说就不一定了。如能获取语言对数据，则该问题就是一个监督式任务。解决方案论文作者指出如何将该任务转换成无监督式任务。...西班牙语小说。注意两部小说未必一样。也就是说，作者发现如何学习两种语言之间共同潜在空间（latent space）。自编码器简单回顾自编码器是用于无监督任务的神经网络的一种宽泛类别。...他们用 C() 表示噪声函数。C() 以输入语句为输入，然后输出该语句的带噪声版本。有两种添加噪声的方法。...之后，使用上述的噪声函数 C() 应用到 y 上，得到 C(y)。语言 A 的编码器将 C(y) 编码，然后由语言 B 的解码器将其解码，重构出 C(y) 的无噪声版本。

1.1K7 0

腾讯云 EMR 常见问题100问（持续更新）

它把海量数据存储于hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用HQL （类SQL ）语言对这些数据进行自动化管理和处理，腾讯云EMR 提供的Hive 除了支持HDFS...在Hadoop.env.sh配置页面看到java环境变量是这样的，没有export吗？...答：如果想通过公网连接hbase，可以让用户通过连接thriftServer，来公网访问问题5：emr支持动态的扩容缩容吗？答：支持的 core和task可以扩容，task节点可以支持缩容。...还有其他指标需要注意的吗？...问题12：master云机配置做了升级（8C32G)，但是emr的前端显示为什么还是旧的(4C16G)？

5.5K4 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

DeepText：Facebook的文本解析引擎

Facebook最新对抗学习研究：无需平行语料库完成无监督机器翻译

出海应用本地化时遇见单复数字串怎么办？

一个模型翻译103 种语言！谷歌500亿参数M4模型突破多语言神经翻译极限

Facebook全新无监督机器翻译法，BLUE测试提升超过10分！

500亿参数，支持103种语言：谷歌推出「全球文字翻译」模型

Facebook开源增强版LASER库，包含93种语言工具包

500亿参数，支持103种语言：谷歌推出「全球文字翻译」模型

学界 | FAIR新一代无监督机器翻译：模型更简洁，性能更优

Linux系统下各类压缩包的解压命令

人类语言遇上编程语言

【源头活水】mBART：多语言翻译预训练模型

开发 | Facebook 开源增强版 LASER 库：可实现 93 种语言的零样本迁移

EMNLP 2018 | 结合通用和专用NMT的优势，CMU为NMT引入「语境参数生成器」

在K8s上弹性深度学习训练利器｜Elastic Training Operator

移情别恋c++ ദ്ദി˶ｰ̀֊ｰ́ ) ——1.c++入门（2）

【C语言系列】为什么要学习C语言？C语言有哪些优势

zip 命令使用记录

入门 | 无需双语语料库的无监督式机器翻译

腾讯云 EMR 常见问题100问（持续更新）

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐