首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

盘点NLP最新进展:多语种40+任务最优结果任你查

读者也可以自行在Github页面上添加新结果,本文中大部分为英文NLP资源,还有少数汉语、越南资源。...简易使用指南 实验结果 本文首选已发表论文中实验结果,但对少数影响力很大预印本论文也可能入选。...Code列,建议使用官方实现。如果有非官方实现,请使用链接(见下文)。如果没有可用实现,可以将单元格留空。...向本索引添加新结果 如果要添加新结果,只需单击文件右上角小编辑按钮以执行相应任务(如下图所示)。 读者可以Markdown编辑文件。只需以相同格式将一行添加到相应即可。...此处需要为建议更改添加名称,可以选择添加说明文字,可以选择“创建新分支并启动拉取请求”,然后单击“提交更改”。 具体索引内容研究领域如下,绝大部分为英语,有少量资源为汉语、越南

1.2K20

每日前端夜话(0x02):ECMAScript 2016,20172018所有新功能示例(下)

Atomics提供了各种方法,使得线程使用其数据时锁定共享内存。它还提供了安全更新共享内存数据方法。 建议通过某个库使用此功能,但是现在没有基于此功能构建库。...但是其他语言,希腊数字该怎么处理呢? 这就是Unicode Property Escapes用武之地。...例如,Unicode数据库将所有字符(हिन्दी)归为一个名为Script属性,其值为Devanagari,另一个属性为Script_Extensions,其值为Devanagari。...所以我们可以搜索Script = Devanagari并获得所有字符。 梵文可以用于各种印度语言,如马拉,梵语等。...(ECMAScript 2018 — showing \p) 同样,Unicode数据库将Script_Extensions(Script)属性下所有希腊字符组合为希腊

97220
您找到你想要的搜索结果了吗?
是的
没有找到

语言多模态、多任务检索模型 MURAL 解读

英语,人们通常会联想到穿着白裙新娘穿着燕尾服新郎,但是翻译成(शादी)时,更恰当联想可能是穿着鲜艳色彩新娘穿着高领长外套(印度男装 Sherwani)新郎。...“婚礼“这个单词英语中表现出不同意象 随着当前神经机器翻译图像识别技术发展,翻译过程可以通过提供一段文本一幅支持图像来减少这种歧义。...汉语等)资源不足(斯瓦希里等)语言。... WIT 数据集文本→图像检索任务,用 ALIGN MURAL 检索到前 5 张图像比较,以语文本为例。...此外,使用多模态模型学习文本表示,观察区域语言接触语言提示也很有意思。因此,需要进一步探索通过多模态模型(如 MURAL)隐式学习到各种联系。

1.1K30

大型项目如何选择ORM:Active Record 还是 Data Mappers

数据持久化 - 将数据落地,比如存储到MySQL,MongoDB等不同数据库。 计算机只有0、1,ORM却有两个功能,又多了个吵架理由。...ActiveRecord上手非常快,业务逻辑持久化逻辑一个对象里一起解决,封装越好框架持久化逻辑对编程人员越透明,程序员甚至不用知道底层数据库使用是MySQL还是MongoDB。...使用者完全不用关心save()方法执行后数据是存储到MySQL还是MongoDB,开发过程可以将精力全部放到业务逻辑,开发速度非常快。 三....对于代码封装来说,全局对象初始化传递是大问题。初始化需要依赖框架,传递需要显示传递。这就导致我们封装package不通用,只能在特定框架下传递特定对象才能使用。...如何选择ORM 上面把ActiveRecordData Mappers都介绍清楚了,选择哪一个需要根据实际业务需求来。

2.1K50

PHP面试题,面试必看!

答:PHP 是服务器端开源脚本语言,外文名:PHP: Hypertext Preprocessor。语法吸收了C语言、JavaPerl特点,利于学习,使用广泛,主要适用于Web开发领域。...','root','123456') or die('数据库连接失败');//连接 mysql_select_db('db_data',$con) or die('选择数据库失败');//选择数据库 $...分布式以及大型文件存储方面具有传统关系型数据库无法比拟优势。 什么是Cookie,什么是Session?...答:Session是存储服务器端,Cookie是存储客户端 简单介绍下PHPincluderequire?...b、无论require位置如何,制定文件都将包含到出现require脚本。例如,即使require放在计算结果为假if语句中,依然会包含指定文件。 介绍下GETPOST?

1.9K20

开源数据 | X-RiSAWOZ: 高质量端到端多语言任务型对话数据集

为了降低新语言数据采集成本,我们通过结合纯人工翻译人工编辑机器翻译结果方式创建了一个新语言基准——X-RiSAWOZ,该数据集将中文RiSAWOZ翻译成4种语言:英语、法语、、韩语,以及...1种码混合场景(-英语混合)。...从下图数据可以看到,、韩语英语-,DST改进尤其明显,因为在这些语言中,机器翻译质量可能不太好。...结果显示零样本设置,性能同样因语言而异,其中英语、法语、、韩语英语-对话成功率分别达到了使用完整数据训练中文对话模型35%、16%、9%、11%4%。...少-shot设置,这个比率提高到了38%、26%、25%、23%5%。可以看到,最小最大改进分别在英语数据集上。

36120

学界 | 谷歌输入法背后机器智能:思你所思,想你所想!

它提供了一种原则性方式来表示自然语言处理中使用各种概率模型(词典,语法,规范化等)以及操纵,优化,组合搜索模型所需数学框架。 Gboard,一个键传感器紧凑地表示键盘这个词,如下图所示。...Gboard上输入三种语言 让新解码器投入实际应用是一项复杂工作,但FST原则有很多好处。 例如,支持语言音译只是解码器简单扩展。...拼音键盘允许用户QWERTY布局上方便输入单词,并将它们自动“翻译”到目标脚本。 同样,一个音译键盘允许用户输入“daanth”(牙齿)“दांत”。...滑动字符转换 正如从字母序列到单词(词典)传感器映射以及为单词序列提供概率加权语言模型自动化,该团队为拉丁按键序列目标脚本符号序列构建了22种印度加权转换器映射。...一些语言属于多个书写系统(例如Bodo可以写在孟加拉文或梵文脚本),因此音译本机布局之间,短短几个月内就建立了57种新输入法。

1.1K70

谷歌输入法背后机器智能

它提供了一种原则性方式来表示自然语言处理中使用各种概率模型(词典,语法,规范化等)以及操纵,优化,组合搜索模型所需数学框架。 Gboard,一个键传感器紧凑地表示键盘这个词,如下图所示。...Gboard上输入三种语言 让新解码器投入实际应用是一项复杂工作,但FST原则有很多好处。 例如,支持语言音译只是解码器简单扩展。...拼音键盘允许用户QWERTY布局上方便输入单词,并将它们自动“翻译”到目标脚本。 同样,一个音译键盘允许用户输入“daanth”(牙齿)“दांत”。...滑动字符转换 正如从字母序列到单词(词典)传感器映射以及为单词序列提供概率加权语言模型自动化,该团队为拉丁按键序列目标脚本符号序列构建了22种印度加权转换器映射。...一些语言属于多个书写系统(例如Bodo可以写在孟加拉文或梵文脚本),因此音译本机布局之间,短短几个月内就建立了57种新输入法。

1.3K70

App出海本地化时遇到复杂语言?华为多语言检查服务有大招!

如同芸芸众生千人千面,全世界使用语言如此之多,肯定有其独特之处。 不过这里说复杂语言,是从计算机显示文字角度来讲计算机系统里,文字都是以二进制编码存储。...当需要在屏幕上显示某个文字时候,就由字库引擎以对应编码字体文件中找到对应图形,然后将图形输出到屏幕上,就完成了文字显示。这个过程,编码与图形是一一对应,关系比较简单。...举几个例子(并非全部): 比如整形 使用阿拉伯文字许多语言,如阿拉伯、波斯、乌尔都、维吾尔等,都存在根据字母单词中所处位置不同而字形不同情况。一般分为词首、词、词尾三种形态。...如下是阿拉伯泰米尔例子。 例3 例4 比如顺序重排 印度本地语言中,部分字母遇到其他字母就会引起字母显示顺序重排。 这样显示,如果要进行文字上检视比对,会需要译员参与。...目前该服务提供拼写检查已经覆盖了多个复杂语言,如阿拉伯、藏语、波斯、希伯来、缅甸等。除了拼写检查之外,同时也支持单复数检查。力不能及地方,就让工具来帮忙吧。

88340

Google翻译将离线翻译质量提高了20%

AndroidiOSTranslate支持59种离线语言中,其准确率提高了12%,此外,单词选择、语法句子结构也都得到了增强。...对于一些语言,包括日语、韩语、泰语、波兰,质量提高超过20%。...一个相关改进,Translate now为10种新语言提供了离线音译支持,包括但不限于:阿拉伯、孟加拉、古吉拉特、卡纳达、马拉、泰米尔、泰卢固乌尔都。...谷歌表示,新翻译目前已投入使用。用户使用离线翻译时,主屏幕会显示更新横幅,辅助他们更新离线文件,每个语言包大约占用35-45 MB,与以前离线包大小几乎相同,但质量更高。 ?...更重要是,一个新改进版本助手也紧锣密鼓研发。它英文模式离线工作,能以“几乎零”延迟处理语音,提供答案速度也会比上一代快10倍。

1.2K20

ACL 2019 | 多语言BERT语言表征探索

值得注意是,多语言BERT训练时候既没有使用任何输入数据语言标注,也没有使用任何翻译机制来来计算对应语言表示。...一个可能解释就是类型相似性,比如英语日语有不同主语、谓语以及宾语顺序,但是英语却保加利亚(BG)有相似的顺序,这说明多语言BERT不同顺序上泛化性能不够强。 3....为了探索多语言BERT语言文本混合(Code-switching)音译(transliteration)情况下表征能力如何,作者进一步UD语料库上测试了(HI)英语(EN)。...多语言文本混合以及音译下POS准确率) 如图3-6所示,该图表是多语言BERT语言文本混合音译下词性标注任务准确率结果,其中transliterated代表是以拉丁文方式书写,而corrected...则代表是以梵文方式书写。

1.3K30

(含源码!)「Fun Paper」见过语音翻译,但你见过嘴型翻译吗?

(3)创建“Face-To-Face Translation”管道过程,结合了该领域最新进展,实现-英语语言对中最先进神经机器翻译结果。...语音到语音翻译流程介绍 语言A(LA)语音识别:使用公共可用最先进ASR系统来生成语言LA文本。使用Deep Speech 2公共可用预训练模型被用于英语语音识别。...LA文本翻译成LB文本:为了实现将LA文本转换成LB文本(这里LA为英语,LA为),创建一个对英语都适用nmt系统,我们通过训练一个多路模型来实现最大化学习。...由于印度缺乏大规模公共数据集,我们通过从抓取新闻文章记录语句子来管理一个类似于LJSpeech数据集。...我们采用了DeepVoice 3nyanko-build 5实现来训练我们TTS模型。 个性化发言人:说话者声音是她声学身份关键因素之一。

1.4K20

手机输入法不好用?谷歌要用AI让你打字更快

为了将这些信息集成Gboard,我们使用了FST。谷歌语音识别和合成系统,FST一直都是关键一部分。...开发这样新解码器非常复杂,但FST自身特点带来了许多帮助。例如,如果希望支持语言音译,那么只要对通用解码器进行简单扩展即可。...拼音帮助用户方便通过QWERTY键盘去输入,将拉丁字母自动“翻译”成目标字符。 类似地,键盘也可以通过类似方式帮助用户输入,例如“daanth”对应于“दांत”(牙齿)。...然而,汉语拼音是一种正规化罗马字系统,而音译则更为混乱,例如“daant”同样可以对应于“दांत”。 ? ?...某些语言有多种拼写系统(例如Bodo可以使用孟加拉文或梵文来拼写),因此短短几个月时间里,我们就开发了57种新输入法,实现拉丁字母与本地语言之间对应。

1.5K70

Roaming Mantis:通过Wi-Fi路由器感染智能手机

DNS劫持是一种欺骗浏览器方式,让浏览器误认为它已经将域名与正确IP地址相匹配。尽管IP地址不正确,但用户输入原始URL会显示浏览器地址栏,因此没有任何可疑内容。...有很多DNS劫持技术,但Roaming Mantis创造者们选择了或许最简单最有效方法:他们劫持被破坏路由器设置,迫使他们使用他们自己流氓DNS服务器。...恶意软件会在安装过程请求一系列权限,包括访问帐户信息权限,发送接收SMS消息,处理语音呼叫,录制音频,访问文件,在其它应用上显示自己窗口等等。...但是在其他地方,它作者扩展另外二十种语言: 阿拉伯 亚美尼亚 保加利亚 孟加拉 捷克 格鲁吉亚 德语 希伯来 印度尼西亚 意大利 马来 抛光 葡萄牙 俄语 塞尔维亚 - 克罗地亚 西班牙...受害者cpu资源被大量占用,迫使系统卡顿并消耗大量电力。 ? 如何防止感染该恶意程序 设备上安装防护软件:不仅仅是电脑笔记本电脑,还有智能手机和平板电脑。 定期更新设备上所有已安装软件。

1.1K50

xwiki功能-国际化

) 德国(de) 希腊(el) (hi) 匈牙利(hu) 意大利(it) 韩国(ko) 拉脱维亚(lv) 挪威(no) 波兰(pl) 葡萄牙(pt) 罗马尼亚(ro) 俄罗斯(ru) 斯洛伐克(sk...使用此功能确保语言编码不是ISO-8859-1编码,当需要调整编码时,参考本博客管理员指南-编码。 ? 切换到另一种语言 默认情况下显示语言是由浏览器决定。...但是每个页面上,你可以选择存在该页面的不同语言之间进行切换。如在下面的截图,右上角单击语言名称。...请注意,当你后台选择语言支持时,可以通过URL后面添加一个language=来强制转换语言。此外,您还可以配置你wiki使用特定语言或强制使用单一语言。 < ?...默认语言显示右边“Document Information”面板上,显示如下图所示: ? “Document Translations”面板,您可以看到当前语言和想要翻译语言

67110

关于跨语种语言模型讨论

2016):法语、西班牙、俄语、阿拉伯汉语 印度理工学院孟买语料库(Anoop等人,2018): OPUS (Tiedemann, 2012):德语、希腊、保加利亚、土耳其、越南、泰语...不同语言使用不同子单词集,而是共享相同字母、数字、特殊标记专有名词,以改进跨语言嵌入空间对齐。...BERT使用片段嵌入一个输入序列中表示不同句子,而用语言嵌入替换它来表示不同语言。 在这两种语言数据,子单词都是随机抽取。这两种语言子词都可以用来预测任何掩码词。 ?...由于作者注意到CLM语言问题中不具有可伸缩性,所以接下来模型比较没有包含CLM训练对象。 ?...他们打算使用不同数据集来查看性能。下图显示了如果数据集大小很小,这个模型比其他模型更好。 ?

1.1K20

【金猿技术展】多语言预训练框架——mRASP

利用大量较易获得数据来预训练模型,具体应用场景再利用少量标注数据微调来实现实际场景可用模型,已经成为NLP新成功范式。不过,语言机器翻译,通过预训练再微调范式还未取得普遍成功。...打破了语种限制 任何语言翻译,无论是孟加拉到古吉拉特还是到菲利宾语,基于mRASP 模型微调,新拓展语种效果可期。即使是不包含在预训练阶段平行句对向上微调,也能取得很大提升。...这四种未见对情况下训练机器翻译都很难。当然其中难度最大是最后一种,相当于要求只学习了中文英语的人,读少量拉丁句子就可以从拉丁翻译。 ? 2....实际上,这种基于平行词典随机替换方法,拉近了不同语言同义句空间上分布。在上例,“爱”"aime"(法语)计算出来词向量期望是尽可能接近。 ?...而在微调阶段,只需要使用预训练阶段参数作初始化,之后采用传统单向机器翻译相同训练方法即可。因此使用mRASP并不需要掌握任何额外技能。

66910

面向现实世界场景,多语言大数据集PRESTO来了

数据集特征 涉及六种语言 我们数据集中所有对话都是由语言对应原生使用者提供,包括六种语言 —— 英语、法语、德语、、日语西班牙。...结构化上下文 用户与虚拟助理交互时,通常会使用存储设备信息,如笔记、联系人和列表。然而,助手通常无法访问此上下文,这可能导致处理用户话语时出现解析错误。...来自 PRESTO - 英语、西班牙 - 英语德语 - 英语编码混合语料例子。...下面展示了对内容修改场景、非流程对话语序场景语言混合使用场景这三种场景不同训练数据数量下性能结果。 随着训练数据量增加,对各种语言场景完整测试集进行 K-shot 结果。...PRESTO 包括大约 50 万个由英语、法语、德语、、日语西班牙六种语言母语使用者贡献的话语。

48660

一种获取NLP语料基本方法

学习自然语言处理,语料获取是第一步,那么如何抓取提取语料呢,本文提供一种思路。...维基百科语料库 维基百科会定期把各种语言百科网页全部打包存储起来,这里我们选择其中中文维基百科网页,这个文件可以作为中文语料库来使用。...,文件大小 1.5G 以上, 如果想要下载其他小文件,可以使用 https://dumps.wikimedia.org/zhwiki 去自行挑选同时带有stream、xmlbz2文件 Windows...mi 毛利 so 索马里 av 阿瓦尔 he 希伯来 mk 马其顿 sq 阿尔巴尼亚 ay 艾马拉 hi ml 马拉雅拉姆 sr 塞尔维亚 az 阿塞拜疆 ho 希里莫图...如何提取 JSON 格式字符串 text 内容?可以使用json.loads()方法将符合 JSON 格式字符串转换为 Python 字典。

1.7K20

浅析 及整体分析 Relay 源码

,再通过UI界面组合显示订单汇率。...路协议不限制订单架构,允许“先到先得”模式;中继可以自行选择订单设计。...那么这些relay点它们组成就是上面所说中继网。随后各relay进行各自订单refresh,这就保证了统一。设计是可以自定义,例如字段,数据库引擎选择等。...此外,补充两点 节点有权选择是否及如何交流,我们可以通过修改源码来进行各种限制 这部分有个核心点--接收广播后更新算法设计,如何达到高速处理杜绝误差回滚 5.环路撮合(订单配对) 环路矿工撮合多笔订单...有如下结论 整体来说,relay内部代码通讯模式是基于:事件订阅--事件接收--事件处理 。 relay 采用存储数据库是分布式数据库Mysql,代码中使用了gorm框架。

95330
领券