首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

盘点NLP最新进展:多语种40+任务最优结果任你查

读者也可以自行在Github页面上添加新的结果,本文中大部分为英文NLP资源,还有少数汉语、印地语和越南语资源。...简易使用指南 实验结果 本文首选在已发表的论文中的实验结果,但对少数影响力很大的预印本论文也可能入选。...在Code列,建议使用官方实现。如果有非官方实现,请使用链接(见下文)。如果没有可用的实现,可以将单元格留空。...向本索引中添加新结果 如果要添加新结果,只需单击文件右上角的小编辑按钮以执行相应任务(如下图所示)。 读者可以在Markdown中编辑文件。只需以相同的格式将一行添加到相应的表中即可。...此处需要为建议更改添加名称,可以选择添加说明文字,可以选择“创建新分支并启动拉取请求”,然后单击“提交更改”。 具体索引内容和研究领域如下,绝大部分为英语,有少量资源为汉语、印地语和越南语。

1.2K20

每日前端夜话(0x02):ECMAScript 2016,2017和2018中所有新功能的示例(下)

Atomics提供了各种方法,使得线程在使用其数据时锁定共享内存。它还提供了安全地更新共享内存中数据的方法。 建议通过某个库使用此功能,但是现在没有基于此功能构建的库。...但是其他语言如印地语,希腊语等中的数字该怎么处理呢? 这就是Unicode Property Escapes的用武之地。...例如,Unicode数据库将所有印地语字符(हिन्दी)归为一个名为Script的属性,其值为Devanagari,另一个属性为Script_Extensions,其值为Devanagari。...所以我们可以搜索Script = Devanagari并获得所有印地语字符。 梵文可以用于各种印度语言,如马拉地语,印地语,梵语等。...(ECMAScript 2018 — showing \p) 同样,Unicode数据库将Script_Extensions(和Script)属性下的所有希腊字符组合为希腊语。

1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    大型项目如何选择ORM:Active Record 还是 Data Mappers

    数据持久化 - 将数据落地,比如存储到MySQL,MongoDB等不同的数据库。 计算机中只有0、1,ORM却有两个功能,又多了个吵架的理由。...ActiveRecord上手非常快,业务逻辑和持久化逻辑在一个对象里一起解决,封装越好的框架持久化逻辑对编程人员越透明,程序员甚至不用知道底层数据库使用的是MySQL还是MongoDB。...使用者完全不用关心save()方法执行后数据是存储到MySQL还是MongoDB,在开发过程中可以将精力全部放到业务逻辑,开发速度非常快。 三....对于代码的封装来说,全局对象的初始化和传递是大问题。初始化需要依赖框架,传递需要显示传递。这就导致我们封装的package不通用,只能在特定框架下传递特定对象才能使用。...如何选择ORM 上面把ActiveRecord和Data Mappers都介绍清楚了,选择哪一个需要根据实际业务需求来。

    2.2K50

    PHP面试题,面试必看!

    答:PHP 是服务器端开源脚本语言,外文名:PHP: Hypertext Preprocessor。语法吸收了C语言、Java和Perl的特点,利于学习,使用广泛,主要适用于Web开发领域。...','root','123456') or die('数据库连接失败');//连接 mysql_select_db('db_data',$con) or die('选择数据库失败');//选择数据库 $...在分布式和以及大型文件存储方面具有传统关系型数据库无法比拟的优势。 什么是Cookie,什么是Session?...答:Session是存储在服务器端的,Cookie是存储在客户端的 简单介绍下PHP中的include和require?...b、无论require的位置如何,制定文件都将包含到出现require的脚本中。例如,即使require放在计算结果为假的if语句中,依然会包含指定文件。 介绍下GET和POST?

    2K20

    跨语言的多模态、多任务检索模型 MURAL 解读

    在英语中,人们通常会联想到穿着白裙的新娘和穿着燕尾服的新郎,但是翻译成印地语(शादी)时,更恰当的联想可能是穿着鲜艳色彩的新娘和穿着高领长外套(印度男装 Sherwani)的新郎。...“婚礼“这个单词在英语和印地语中表现出不同的意象 随着当前神经机器翻译和图像识别技术的发展,在翻译过程中可以通过提供一段文本和一幅支持图像来减少这种歧义。...汉语等)和资源不足(斯瓦希里语、印地语等)的语言。...在 WIT 数据集的文本→图像检索任务中,用 ALIGN 和 MURAL 检索到的前 5 张图像的比较,以印地语文本为例。...此外,在使用多模态模型学习的文本表示中,观察区域语言学和接触语言学的提示也很有意思。因此,需要进一步探索通过多模态模型(如 MURAL)隐式学习到的各种联系。

    1.2K30

    Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务

    例如,表现最佳的o1-preview模型在第一轮指令的平均准确率为87.7%,但到第三轮下降至70.7% 此外,非拉丁文字语言(如印地语、俄语和中文)的错误率明显更高,反映出模型在多语言任务中的局限性。...自动翻译:使用Llama 3.1 405B模型将原始英语指令翻译为中文、法语、俄语、印地语、西班牙语、意大利语和葡萄牙语七种语言。 2....法语和意大利语的表现也较为接近英语,而俄语、印地语和中文等非拉丁文字的准确率则明显较低。 例如,o1-preview模型在俄语和印地语中的准确率低于其在英语、法语等语言中的表现。...o1-preview在所有语言中的表现相对稳定,并在中文、西班牙语、意大利语和印地语中稍胜Llama 3.1 405B,而GPT-4o的表现则略逊于前两者。...这些结果反映出,尽管现有的先进LLM在多语言任务上已经展现出一定的能力,但在处理俄语、印地语和中文等非拉丁文字语言的指令遵循任务时仍存在明显的局限性。这也为未来多语言模型的改进指出了明确的方向。

    5610

    开源数据 | X-RiSAWOZ: 高质量端到端多语言任务型对话数据集

    为了降低新语言的数据采集成本,我们通过结合纯人工翻译和人工编辑机器翻译结果的方式创建了一个新的多语言基准——X-RiSAWOZ,该数据集将中文RiSAWOZ翻译成4种语言:英语、法语、印地语、韩语,以及...1种语码混合场景(印地语-英语混合)。...从下图的数据中可以看到,在印地语、韩语和英语-印地语中,DST的改进尤其明显,因为在这些语言中,机器翻译的质量可能不太好。...结果显示,在零样本设置中,性能同样因语言而异,其中英语、法语、印地语、韩语和英语-印地语的对话成功率分别达到了使用完整数据训练的中文对话模型的35%、16%、9%、11%和4%。...在少-shot设置中,这个比率提高到了38%、26%、25%、23%和5%。可以看到,最小和最大的改进分别在英语和印地语数据集上。

    52320

    学界 | 谷歌输入法背后的机器智能:思你所思,想你所想!

    它提供了一种原则性的方式来表示自然语言处理中使用的各种概率模型(词典,语法,规范化等)以及操纵,优化,组合和搜索模型所需的数学框架。 在Gboard中,一个键传感器紧凑地表示键盘这个词,如下图所示。...在Gboard上输入三种语言 让新的解码器投入实际应用是一项复杂的工作,但FST原则有很多好处。 例如,支持印地语等语言的音译只是解码器的简单扩展。...拼音键盘允许用户在QWERTY布局上方便地输入单词,并将它们自动“翻译”到目标脚本中。 同样,一个音译印地语键盘允许用户输入“daanth”(牙齿)“दांत”。...印地语的滑动字符转换 正如从字母序列到单词(词典)的传感器映射以及为单词序列提供概率的加权语言模型自动化,该团队为拉丁语按键序列和目标脚本符号序列构建了22种印度语的加权转换器映射。...一些语言属于多个书写系统(例如Bodo可以写在孟加拉文或梵文的脚本中),因此在音译和本机布局之间,在短短几个月内就建立了57种新的输入法。

    1.1K70

    谷歌输入法背后的机器智能

    它提供了一种原则性的方式来表示自然语言处理中使用的各种概率模型(词典,语法,规范化等)以及操纵,优化,组合和搜索模型所需的数学框架。 在Gboard中,一个键传感器紧凑地表示键盘这个词,如下图所示。...在Gboard上输入三种语言 让新的解码器投入实际应用是一项复杂的工作,但FST原则有很多好处。 例如,支持印地语等语言的音译只是解码器的简单扩展。...拼音键盘允许用户在QWERTY布局上方便地输入单词,并将它们自动“翻译”到目标脚本中。 同样,一个音译印地语键盘允许用户输入“daanth”(牙齿)“दांत”。...印地语的滑动字符转换 正如从字母序列到单词(词典)的传感器映射以及为单词序列提供概率的加权语言模型自动化,该团队为拉丁语按键序列和目标脚本符号序列构建了22种印度语的加权转换器映射。...一些语言属于多个书写系统(例如Bodo可以写在孟加拉文或梵文的脚本中),因此在音译和本机布局之间,在短短几个月内就建立了57种新的输入法。

    1.3K70

    App出海本地化时遇到复杂语言?华为多语言检查服务有大招!

    如同芸芸众生中的千人千面,全世界使用的语言如此之多,肯定有其独特之处。 不过这里说的复杂语言,是从计算机显示文字的角度来讲的。在计算机系统里,文字都是以二进制编码存储的。...当需要在屏幕上显示某个文字的时候,就由字库引擎以对应的编码在字体文件中找到对应的图形,然后将图形输出到屏幕上,就完成了文字的显示。这个过程中,编码与图形是一一对应的,关系比较简单。...举几个例子(并非全部): 比如整形 使用阿拉伯文字的许多语言,如阿拉伯语、波斯语、乌尔都语、维吾尔语等,都存在根据字母在单词中所处位置不同而字形不同的情况。一般分为词首、词中、词尾三种形态。...如下是阿拉伯语和泰米尔语的例子。 例3 例4 比如顺序重排 在印度本地语言中,部分字母遇到其他字母就会引起字母显示顺序的重排。 这样的显示,如果要进行文字上的检视比对,会需要译员的参与。...目前该服务提供的拼写检查已经覆盖了多个复杂语言,如阿拉伯语、藏语、波斯语、印地语、希伯来语、缅甸语等。除了拼写检查之外,同时也支持单复数的检查。力不能及的地方,就让工具来帮忙吧。

    93140

    Google翻译将离线翻译质量提高了20%

    在Android和iOSTranslate支持的59种离线语言中,其准确率提高了12%,此外,单词选择、语法和句子结构也都得到了增强。...对于一些语言,包括日语、韩语、泰语、波兰语和印地语,质量提高超过20%。...在一个相关的改进中,Translate now为10种新语言提供了离线音译支持,包括但不限于:阿拉伯语、孟加拉语、古吉拉特语、卡纳达语、马拉地语、泰米尔语、泰卢固语和乌尔都语。...谷歌表示,新的翻译目前已投入使用。用户使用离线翻译时,主屏幕会显示更新横幅,辅助他们更新离线文件,每个语言包大约占用35-45 MB,与以前的离线包大小几乎相同,但质量更高。 ?...更重要的是,一个新的改进版本助手也在紧锣密鼓的研发中。它的英文模式离线工作,能以“几乎零”的延迟处理语音,提供答案的速度也会比上一代快10倍。

    1.2K20

    ACL 2019 | 多语言BERT的语言表征探索

    值得注意的是,多语言BERT在训练的时候既没有使用任何输入数据的语言标注,也没有使用任何翻译机制来来计算对应语言的表示。...一个可能的解释就是类型相似性,比如英语和日语有不同的主语、谓语以及宾语顺序,但是英语却和保加利亚语(BG)有相似的顺序,这说明多语言BERT在不同的顺序上泛化性能不够强。 3....为了探索多语言BERT在多语言文本混合(Code-switching)和音译(transliteration)的情况下表征能力如何,作者进一步在UD语料库上测试了印地语(HI)和英语(EN)。...多语言文本混合以及音译下的POS准确率) 如图3-6所示,该图表是多语言BERT在多语言文本混合和音译下的词性标注任务的准确率结果,其中transliterated代表印地语是以拉丁文的方式书写,而corrected...则代表印地语是以梵文的方式书写。

    1.3K30

    清华等高校推出首个开源大模型水印工具包MarkLLM,支持近10种最新水印算法

    MarkLLM 提供了统⼀的⼤模型⽔印算法实现框架、直观的⽔印算法机制可视化⽅案以及系统性的评估模块,旨在⽀持研究⼈员⽅便地实验、理解和评估最新的⽔印技术进展。...& 仍然⾯临的问题 ⼤模型⽔印是近期新兴的⼀项技术,通过在模型⽣成⽂本过程中植⼊特定的特征,来实现机⽣⽂本的辨别和来源追溯。...然⽽,就像所有新兴技术⼀样,⼤语⾔模型⽔印技术在使⽤和理解上也⾯临⼀些挑战。 1. 如何便捷地使⽤各个⼤模型⽔印算法进⾏⽔印添加和检测? 各类⼤模型⽔印算法不断涌现。...⼤模型⽔印算法的底层机制相对复杂,涉及对⼤模型⽣成⽂本过程中打分向量⽣成以及采样过程的⼲预,不便于研究者和⼤众理解。 3. 如何便捷、全⾯的评估各个⼤模型⽔印算法?...作者衷⼼希望 MarkLLM ⼯具包在为研究⼈员提供便利的同时,提⾼⼤众对⼤语⾔模型⽔印技术的理解和参与度,促进学术界和公众之间就该技术达成共识,推动⼤语⾔模型⽔印研究和应⽤的进⼀步发展,为⼤语⾔模型使

    16210

    (含源码!)「Fun Paper」见过语音翻译,但你见过嘴型翻译吗?

    (3)在创建“Face-To-Face Translation”管道的过程中,结合了该领域的最新进展,实现印地语-英语语言对中最先进的神经机器翻译结果。...语音到语音翻译流程介绍 语言A(LA)语音识别:使用公共可用的最先进的ASR系统来生成语言LA中的文本。使用Deep Speech 2的公共可用的预训练模型被用于英语语音识别。...LA文本翻译成LB文本:为了实现将LA的文本转换成LB的文本(这里LA为英语,LA为印地语),创建一个对印地语和英语都适用的nmt系统,我们通过训练一个多路模型来实现最大化学习。...由于印度语缺乏大规模的公共数据集,我们通过从抓取的新闻文章中记录印地语句子来管理一个类似于LJSpeech的数据集。...我们采用了DeepVoice 3的nyanko-build 5实现来训练我们的印地语TTS模型。 个性化的发言人:说话者的声音是她的声学身份的关键因素之一。

    1.5K20

    手机输入法不好用?谷歌要用AI让你打字更快

    为了将这些信息集成在Gboard中,我们使用了FST。在谷歌的语音识别和合成系统中,FST一直都是关键一部分。...开发这样的新解码器非常复杂,但FST自身的特点带来了许多帮助。例如,如果希望支持印地语等语言的音译,那么只要对通用解码器进行简单扩展即可。...拼音帮助用户方便地通过QWERTY键盘去输入,将拉丁字母自动“翻译”成目标字符。 类似地,印地语键盘也可以通过类似方式帮助用户输入,例如“daanth”对应于“दांत”(牙齿)。...然而,汉语拼音是一种正规化的罗马字系统,而印地语的音译则更为混乱,例如“daant”同样可以对应于“दांत”。 ? ?...某些语言有多种拼写系统(例如Bodo语可以使用孟加拉文或梵文来拼写),因此在短短几个月时间里,我们就开发了57种新的输入法,实现拉丁字母与本地语言之间的对应。

    1.6K70

    Roaming Mantis:通过Wi-Fi路由器感染智能手机

    DNS劫持是一种欺骗浏览器的方式,让浏览器误认为它已经将域名与正确的IP地址相匹配。尽管IP地址不正确,但用户输入的原始URL会显示在浏览器地址栏中,因此没有任何可疑内容。...有很多DNS劫持技术,但Roaming Mantis创造者们选择了或许最简单和最有效的方法:他们劫持被破坏的路由器的设置,迫使他们使用他们自己的流氓DNS服务器。...恶意软件会在安装过程中请求一系列权限,包括访问帐户信息的权限,发送和接收SMS消息,处理语音呼叫,录制音频,访问文件,在其它应用上显示自己的窗口等等。...但是在其他地方,它的作者扩展另外二十种语言: 阿拉伯 亚美尼亚 保加利亚语 孟加拉 捷克 格鲁吉亚 德语 希伯来语 印地语 印度尼西亚 意大利 马来语 抛光 葡萄牙语 俄语 塞尔维亚 - 克罗地亚语 西班牙语...受害者的cpu资源被大量占用,迫使系统卡顿并消耗大量电力。 ? 如何防止感染该恶意程序 在设备上安装防护软件:不仅仅是电脑和笔记本电脑,还有智能手机和平板电脑。 定期更新设备上的所有已安装软件。

    1.1K50

    关于跨语种语言模型的讨论

    2016):法语、西班牙语、俄语、阿拉伯语和汉语 印度理工学院孟买语料库(Anoop等人,2018):印地语 OPUS (Tiedemann, 2012):德语、希腊语、保加利亚语、土耳其语、越南语、泰语...不同的语言使用不同的子单词集,而是共享相同的字母表、数字、特殊标记和专有名词,以改进跨语言嵌入空间的对齐。...BERT使用片段嵌入在一个输入序列中表示不同的句子,而用语言嵌入替换它来表示不同的语言。 在这两种语言的数据中,子单词都是随机抽取的。这两种语言的子词都可以用来预测任何掩码词。 ?...由于作者注意到CLM在跨语言问题中不具有可伸缩性,所以在接下来的模型比较中没有包含CLM训练对象。 ?...他们打算使用不同的数据集来查看性能。下图显示了如果数据集大小很小,这个模型比其他模型更好。 ?

    1.2K20

    CI一些优秀实践

    在任何一个公开的站点,error_reporting 应该设置为0 ,最多只能设置为 E_ERROR,数据库设置 db_debug 应该设置为 false,基于其他安全考虑,设置不显示出错信息 ini_set...可以参考CI手册上的安全指南 以及 输入和安全类。也许最重要的原则是在把数据提交到数据库或文件系统之前检查所有用户的输入。 SQL注入。...数据库 和 ORM CodeIgniter 有一个自带的库 Active Record 能够帮助你在不使用 SQL 语句的情况下写查询语句。...当你需要更强大的工具时,你可以考虑使用 Object Relational Mapper ,就是鼎鼎大名的 ORM 了,遗憾的是,CodeIgniter 没有自带 ORM 库,不过也有一些其他很好的选择...CodeIgniter的文件结构 cache用以存储缓存文件,codeigniter文件夹包含了CI的基类CI_Base,为了兼容php4和php5,CI_Base有两个版本,其中php4版本的CI_Base

    3.4K50

    【金猿技术展】多语言预训练框架——mRASP

    利用大量较易获得的数据来预训练模型,在具体应用场景再利用少量标注数据微调来实现实际场景可用的模型,已经成为NLP新的成功范式。不过,在多语言的机器翻译中,通过预训练再微调的范式还未取得普遍的成功。...打破了语种的限制 任何语言的翻译,无论是孟加拉语到古吉拉特语还是印地语到菲利宾语,基于mRASP 模型微调,新拓展的语种效果可期。即使是不包含在预训练阶段平行句对中的语向上微调,也能取得很大的提升。...这四种未见语对情况下训练机器翻译都很难。当然其中难度最大的是最后一种,相当于要求只学习了中文和英语的人,读少量拉丁语和印地语的句子就可以从拉丁语到印地语翻译。 ? 2....实际上,这种基于平行词典的随机替换方法,拉近了不同语言的同义句在空间上的分布。在上例中,“爱”和"aime"(法语)计算出来的词向量期望是尽可能接近的。 ?...而在微调阶段,只需要使用预训练阶段的参数作初始化,之后采用和传统单向机器翻译相同的训练方法即可。因此使用mRASP并不需要掌握任何额外的技能。

    70110

    xwiki功能-国际化

    ) 德国(de) 希腊(el) 印地语(hi) 匈牙利(hu) 意大利(it) 韩国(ko) 拉脱维亚(lv) 挪威(no) 波兰(pl) 葡萄牙(pt) 罗马尼亚(ro) 俄罗斯(ru) 斯洛伐克(sk...使用此功能确保语言的编码不是ISO-8859-1编码,当需要调整编码时,参考本博客管理员指南-编码。 ? 切换到另一种语言 默认情况下显示的语言是由浏览器决定的。...但是在每个页面上,你可以选择存在该页面的不同语言之间进行切换。如在下面的截图,在右上角单击语言名称。...请注意,当你的后台选择多语言支持时,可以通过在URL后面添加一个language=的语言代码>来强制转换语言。此外,您还可以配置你的wiki使用特定语言或强制使用单一语言。 < ?...默认语言显示在右边“Document Information”面板上,显示如下图所示: ? 在“Document Translations”面板中,您可以看到当前语言和想要翻译的语言。

    73120
    领券