地址:https://catalog.ldc.upenn.edu/LDC2018T17 Arabizi Text:自动检测英语和阿拉伯语混合文本中语码转换的训练数据,包含 522 条推特。...源文本是 2013 年 5 月从阿拉伯版《Le Monde Diplomatique》中收集的文章。...地址:http://opus.nlpl.eu/Wikipedia.php English-Croatian:英语和克罗地亚语平行文本。...地址:https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus OntoNotes:包含英语、中文和阿拉伯语各类文本(新闻、电话会话...地址:https://catalog.ldc.upenn.edu/LDC2018S08 South Asia Telephone Speech:包含约 118 小时的标注电话语音,孟加拉语、印地语、旁遮普语
人生的旅程就是这样,用大把时间迷茫,在几个瞬间成长。——瑞卡斯 IBus 全称 Intelligent Input Bus是下一代输入法框架(或者说“平台”)。...项目现托管于 Google Code - https://code.google.com/p/ibus/ 此项目包含了世界多数语言的文字输入需求——由世界多个国家开发者维护。...install gnome-icon-theme 其他同上 找回消失的IBus图标: 在终端输入: ibus-daemon -drx 其他语言输入法: 安装 ibus-m17n 包即可。...sudo apt-get install ibus-m17n 这个软件包包含了几乎所有除了英语,中日韩等的其他输入法,如:阿拉伯语,阿姆哈拉语,阿萨姆语,阿萨帕斯坎诸语,奥杰布瓦语,白俄罗斯语,波斯语,...藏语,傣语,丹麦语,迪维希语,俄语,法语,梵语,高棉语,格鲁吉亚语,古典希腊语,古吉拉特语,哈萨克语,捷克语,卡纳达语,克里语,克罗地亚语,克什米尔语,老挝语,马拉提语,马拉雅拉姆语,孟加拉语,缅甸语,
阿拉伯语是仅次于英语和法语之外最多国家使用的官方语言,流通于中东、北非、非洲等地区。...然而由于历史、文化原因,还有部分国家的语言书写是从右到左的(right-to-left _以下简称RTL),如阿拉伯语、波斯语、希伯来语、乌尔都语、维吾尔语等。...iOS 默认值跟随当前语言 bundle,如 英语bundle下为 左对齐, 阿拉伯语bundle 下为右对齐。...Android 默认值跟随Text 的语言, 如英语Text下为 左对齐,阿拉伯语Text下为右对齐: - 如果Text 设置了 textAlign,则该Text会正常显示,无需适配 - 如果Text没有设置...textAlign,在英语bundle下显示英语,在阿拉伯语bundle下显示阿拉伯语,则无需适配 - 如果Text没有设置textAlign,在英语bundle下显示英语,在阿拉伯语bundle下依然显示英语
反映了NLP系统对当前任务的预期输出(例如,语音识别系统的高级文本或者对话系统中高标准用户的意向标签,如Siri、Alexa或Google Home等)。...只有50种以上资源的语言有葡萄牙语、意大利语、荷兰语、标准阿拉伯语和捷克语,世界上其余的大约7000种语言几乎就没什么资源了。...其它语言,如西班牙语,有更透明的基于电话的正字法,还有一些语言只代表辅音(如传统的希伯来语和阿拉伯语),或者有代表音节而不是单个声音的符号(如马拉雅拉姆语、韩语或日语假名),或使用语标式系统(例如中文,...许多语言技术通过在输入语言中对字符串进行映射或将这些字符串转换为语法或语义表示到外部知识库的方式来实现特定于任务的目标。...当输入字符串和知识库中的字段名或实体在使用同一种语言的时候,那么就可以处理快捷方式了。但这有多少种语言可以这样呢?
对于一些语言,包括日语、韩语、泰语、波兰语和印地语,质量提高超过20%。...在一个相关的改进中,Translate now为10种新语言提供了离线音译支持,包括但不限于:阿拉伯语、孟加拉语、古吉拉特语、卡纳达语、马拉地语、泰米尔语、泰卢固语和乌尔都语。...以前的机器学习方法是通过扫描句子的短语来提供翻译,而现在,离线翻译使用NMT一次分析整块文本,从而实现更加自然、语法更合理、上下文更清晰的翻译。...谷歌的会话人工智能最近在80个国家上线,精通30多种语言,并在英国、印度、法国、德国、日本、荷兰、挪威、韩国和意大利增加了九个新的AI生成的英语语音变体。...更重要的是,一个新的改进版本助手也在紧锣密鼓的研发中。它的英文模式离线工作,能以“几乎零”的延迟处理语音,提供答案的速度也会比上一代快10倍。
这样的需求导致了在NLP领域中出现了高资源语言和低资源语言的数字鸿沟。 高资源的语言种类只有几种,包括英语、汉语、阿拉伯语和法语,或许还可以将德语、葡萄牙语、西班牙语、芬兰语包括进去。...这些语言具有大量可访问的文本和语音资源,以及一些注释资源如树图资料库(treebank)和评估集。...其他超过50项资源的语言只有葡萄牙语、意大利语、荷兰语、标准阿拉伯语和捷克语。世界上另外大约7000种其他的语言则只有极少的资源或没有。...西班牙语等其他语言,具有基于发音的拼写法系统更加透明化,还有一些语言仅代表辅音(例如传统的希伯来语和阿拉伯语)或具有代表音节而不是单一声音的符号(例如马拉雅拉姆语,韩语或日语假名),或者使用逻辑系统(例如中文...许多语言技术通过将输入语言中的字符串映射到外部知识库或者将这些字符串转换为语法或语义表示从而实现特定任务的目标。当输入的字符串和知识库中的字段名或条目使用同一种语言时,处理快捷方式就可用了。
它是首个用单个模型解决多种语言(包括低资源语言,如卡拜尔语、维吾尔语、吴语)的同类型库。...Facebook 对 2.23 亿个与英语或西班牙语对齐的公共平行数据进行了系统训练。对于每个批量,Facebook 随机选择一种输入语言并训练系统将句子翻译成英语或西班牙语。...LASER 可以处理的 93 种语言包括主动宾(SVO)顺序的语言(如英语)、主宾动(SOV)顺序语言(如孟加拉语和突厥语)、动主宾(VSO)顺序语言(如塔加拉族语和柏柏尔语),甚至是动宾主(VOS)顺序的语言...(如马达加斯加语)。...以前的方法只会考虑同一语言中的前提和假设。 该句子编码器也可被用于挖掘大型单语言文本集合中的平行数据。Facebook 研究者只需要计算所有语言对之间的距离,并选择最近的一对。
iOS MachineLearning 系列(11)—— 自然语言识别与单词分析 在上一篇文章中,我们介绍了使用NaturalLanguage框架来进行自然语言的拆解,可以将一段文本按照单词,句子或段落的模式进行拆解...语言识别是其他高级自然语言处理任务的基础,本篇文章还将介绍NaturalLanguage关于文本分析的能力,其能够对文本中的人名,地名和组织名进行识别,也可以对词性进行分析,如动词,名词。...甚至我们还可以分析文本的积极或消极程度来推测内容的取向,从而帮助开发者开发出更加智能的应用。...1 - 语言识别 NLLanguageRecognizer类用来进行语言识别,其可以对输入的文本所使用的语言进行推断,使用非常简单。...属性即可获取到这段文本所使用的最接近的语言,例如上面的示例字符串中,string1和string2是比较单纯的中文和英文,string3是日语,日语中很多字是和中文一样的,因此对其进行识别可能会出现误差
每张图像都会提供多个标题,文本内容也会尽可能贴合当地文化,而不只是翻译,比如下面这张汽车的图像,西班牙语的描述中提到了「数字42」,泰语中的描述包括「敞篷车」等英语描述中没有出现的元素。...36种语言中,研究人员选择了30种英语以外的语言,主要是基于语言在网络内容中所占的比例。...另外五种语言的原则主要包括资源不足的语言,这些语言有许多母语使用者,或者是来自各大洲的主要母语,如泰卢固语、斯瓦希里语等,再加上将英语作为基准,一共是36种语言。 图像的选择主要基于地理位置。...第一个屏幕显示所有的15张图片及其英文描述,描述由模型自动生成的,以一致的形式「在中做」,通常带有对象的属性,如「微笑」的人、「红色」的汽车等。...PALI模型已经使用 XM3600对图像描述、文本检索和文本检索的英文以外的模型性能进行了评估。研究人员发现,多语言描述可以让PaLI模型在缩放后性能更强,特别是对于资源较少的语言。
学习如何将文字转换为栩栩如生的口头语音介绍音频 API 提供基于我们的 TTS(文本到语音)模型的语音端点。...快速开始语音端点接受三个关键输入:模型、应转换为音频的文本以及用于音频生成的语音。...尽管当前的语音优化为英语,Whisper 支持以下语言并表现良好:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语...您可以通过提供所选语言的输入文本来生成这些语言的口头语音。实时音频流传输语音 API 提供了使用分块传输编码进行实时音频流传输的支持。这意味着在完整文件生成并可访问之前,音频就可以播放了。...某些因素可能会影响输出音频,如大小写或语法,但我们对这些因素进行的内部测试结果参差不齐。我能否创建自己声音的自定义副本?不,这不是我们支持的功能。我拥有输出的音频文件吗?
,实现高亮显示) 下图展示了ES中的一个例子: ES中的JSON文档中的每个字段,都有自己的倒排索引。...重要概念2:Analyzer 在ES中文本分析是其最常见的功能之一,文本分析(Analysis)是把全文转换为一系列单词(term)的过程,也叫作分词。...通常用于不需要对输入做分词的场景。...:阿拉伯语、亚美尼亚语、巴斯克语、孟加拉语、巴西语、保加利亚语、加泰罗尼亚语、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、加利西亚语、德语、希腊语、印地语、匈牙利语、印度尼西亚语、爱尔兰语、意大利语、拉脱维亚语...可以看到,ES支持的语言分词器中,没有支持中文,这是因为:中文分词存在较大的难点,不像英语那么简单。
NLP 模型从一种语言(如英语)到其他许多种语言(包括训练数据极度有限的语言)的零样本迁移带来了可能。...Facebook 在与英语和西班牙语对齐的公共平行数据中的 2.23 亿个句子上训练他们的系统,对于每个小批量,他们都随机选择一种输入语言,并训练系统将句子翻译成英语或者西班牙语。...融入到 LASER 的 93 种语言包括主动宾(SVO)顺序的语言(如英语)、主宾动(SOV)顺序的语言(如孟加拉语和土耳其语)、动主宾(VSO)顺序的语言(如塔加路语和柏柏尔语),甚至是动宾主(VOS...)顺序的语言(如马达加斯加语)。...该编码器能够泛化到训练期间没有用到过(即便被用作单语言文本)的语言上,Facebook 的研究人员观察到这一编码器在方言以及地域性的语言上(如阿斯图里亚斯语、法罗语、弗里西语、卡舒比语、北摩鹿加语、皮埃蒙特语
q=Stanford.NLP 1.Stanford CoreNLP :提供了一组自然语言分析工具,可采用原始的英文文本输入,并提供单词的基本形式、读音形式、无论它们是公司名还是人名等,以及规范化日期、时间和数字数量...2.Stanford.NLP.NER:是一个 Named Entity Recognizer 的实现。命名实体识别(NER)标签在文本序列中代指事物,如人、公司名、基因和蛋白质名称。...包括基于 Chinese Treebank 的中文解析器,基于 Negra 语料库的的与解析器,基于 Penn Arabic Treebank 的阿拉伯语解析器,以及意大利语、保加利亚语和葡萄牙语。...完整版下载包含三个训练过的英语标签器模型,一个阿拉伯语标签器模型,一个汉语标签器模型,和一个德语标签器模型。两种版本都包括相同的源代码和其它必需的文件。...其它语言则需要更大量的标记预处理,通常叫做分割(segmentation)。 The Stanford Word Segmenter(斯坦福词汇分割器)现在支持阿拉伯语和中文。
Unicode ,有以下两种攻击方式: 第一种是通过 Unicode 的 Bidi 算法(CVE-2021-42574),该算法处理从左到右(如英语)和从右到左(如阿拉伯语和希伯来语)脚本显示顺序。...Trojan-Source 攻击 字符重新排序方式 Unicode 标准规定,内存表示顺序称为逻辑顺序,当文本在一行的时候,大多数脚本从左往右显示字符(例如英语)。...然而,也有一些脚本(如阿拉伯语或希伯来语)显示文本的自然顺序是从右往左。当混合具有不同显示顺序的脚本时,必须有一种确定性的方法来解决方向冲突。...下列代码中的 if 条件没有执行,而是被放置在注释部分,程序显示效果起到了欺骗用户的作用。 研究人员还展示了如何在 C++ 中执行同源文字攻击。...他们使用了两个看起来相似但实际上不同的 H,蓝色的拉丁语 H 和红色的西里尔字母Н。当进行编译时,该程序输出文本「Goodbye, World!」。
不仅如此,研究者还使用英语或西班牙语对公共并行数据中 2.23 亿条句子进行了系统的训练。...对于每个小批量,随机选择一种输入语言并训练模型,使其将句子翻译成英语或西班牙语中的一种,而不需要让大多数语言都与目标语言保持一致。...他们逐渐扩展到那些可用的并行文本中的所有语言,并将 93 种语言并入到 LASER 工具包中,这些语言包括 subject-verb-object (SVO) order (如英语),SOV order...(如孟加拉语和突厥语),VSO order (如塔加路语和柏柏尔语),以及 VOS order (如马达加斯加语)。...研究表明,只需要计算所有句子对之间的距离并选择最接近的句子对,就能够提取文本数据中的数据信息。
Stanford.NLP.Segmenter Stanford.NLP.CoreNLP Stanford CoreNLP Stanford CoreNLP 提供了一组自然语言分析工具,可采用原始的英文文本输入...包括基于 Chinese Treebank 的中文解析器,基于 Negra 语料库的的与解析器,基于 Penn Arabic Treebank 的阿拉伯语解析器,以及意大利语、保加利亚语和葡萄牙语。...命名实体识别(NER)标签在文本序列中代指事物,如人、公司名、基因和蛋白质名称。...完整版下载包含三个训练过的英语标签器模型,一个阿拉伯语标签器模型,一个汉语标签器模型,和一个德语标签器模型。两种版本都包括相同的源代码和其它必需的文件。...注意:它是 GPL 形式的,允许免费使用,但不允许被整合到任何形式的专有软件中,即使是其中的一部分,或翻译版本。商业应用请联系斯坦福自然语言处理组。 ?
XNLI 提出了以下研究问题:在仅具备英语训练数据的情况下,我们如何在测试时对任意语言进行预测?...研究者使用文本蕴含标注这些句对,然后将这些句子翻译成 14 种语言:法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印度语、斯瓦西里语和乌尔都语,这就有 11.25...-1.0.zip(17MB,ZIP) XNLI 还可用作一万个句子的 15way 平行语料库,来构建或评估机器翻译系统。...这些模型往往是在单语数据(通常是英语)上训练的,无法直接用于其他语言。由于收集每种语言的数据不切实际,因此研究者对跨语言理解(XLU)和低资源跨语言迁移的兴趣越来越大。...我们发现 XNLI 是一个实际且有难度的评估套件,在直接翻译测试数据任务上获得了可用基线模型中的最优表现。 ? 本文为机器之心编译,转载请联系本公众号获得授权。
支持设置工作簿视图模式和显示/隐藏标尺 引入依赖库 NFP (number format parser) 以增加对自定义时间、日期和文本类型数字格式的支持,可对包含 19 种语言(南非荷兰语、孟加拉语...、汉语、英语、法语、德语、奥地利语、爱尔兰语、意大利语、俄语、西班牙语、泰语、藏语、土耳其语、威尔士语、沃洛夫语、科萨语、彝语和祖鲁语)本地月份名称和 12 小时制格式的数字格式表达式进行解析,相关 issues...与 CodeName 属性,以解除部分情况下向工作簿中嵌入 VBA 工程时的限制,相关 issue #1148 公式计算引擎支持中缀运算符后包含无参数公式函数的计算 支持以文本形式读取布尔型单元格的值...,显示或隐藏工作表标签属性丢失的问题,解决 issue #1160 修复部分情况下嵌套公式计算错误的问题,解决 issue #1164 修复部分情况下公式计算结果精度不准确以及在 x86 和 arm64...,内存开销相较于上一版本降低最高约 50%,内存垃圾回收次数降低约 80% 其他 Go Modules 依赖模块更新 单元测试与文档更新 包含简体中文、英语、法语、俄语、日语、韩语、阿拉伯语、德语和西班牙语的多国语言文档网站更新
CDS发布了Yann LeCun的深度学习(DS-GA 1008)课程的所有材料,包括带英文字幕教学视频、书面讲义、课件以及带有PyTorch实现的可执行Jupyter Notebooks。...(链接见文末) 课程视频示例 课程涵盖了深度学习和表示学习中的最新技术,重点包括监督/自监督学习、嵌入方法、度量学习、卷积网络和循环网络,并应用于计算机视觉、自然语言理解和语音识别。...不过,在学习这门课程之前,同学们还需要先学习纽约大学的DS-GA 1001数据科学入门或一门研究生级别的机器学习课程。 这门为期14周的课程从深度学习的历史、动机和灵感等主题开始。...值得一提的是,这门课程还提供了多种语言版本的讲义,包括英语、阿拉伯语、西班牙语、意大利语、日语、韩语、土耳其语、中文、法语、波斯语、俄语等语言。并且,之后还将添加葡萄牙语、孟加拉语和越南语。...翻译工作是由来自全球17个时区的470多名志愿者完成的。
除了由开放 AI 研究小组 EleutherAI 创建的几个模型之外,很少有经过培训的 LLM 可供研究或部署到生产中。...英语法 LLM 的数量远远超过其他语言培训的 LLM,少数西欧语言(特别是德语,法语和西班牙语)占据了主导地位。...用英语以外的语言训练的大型多语言和单语模型虽然很少开源,但正变得比以前更常见,部分归功于企业利益。但是,由于公共数据源中的系统性偏差,非英语模型的表现并不总是与英语模型一样好。...此外,阿拉伯语和乌尔都语版本的电子书大多为图像扫描件、而非纯文本,在使用光学字符识别工具转录过程中其精度可能低至 70%。...该项目的贡献者还创建了最大的阿拉伯语公共自然语言目录之一,称为Masader,拥有200多个数据集。
领取专属 10元无门槛券
手把手带您无忧上云