Salesforce开发了一个处理不同NLP任务的通用模型

AiTechYun

编辑:chux

自然语言处理(NLP)的技术可以帮助计算机解释人类语言,能够带来令人惊讶的细微差别。其中一个例子就是Facebook新推出的页面NLP集成,它可以自动从企业的Facebook页面中提取文本,并为客户回答常见问题。但即使是尖端的NLP算法也存在一个问题:它们针对特定任务进行了高度优化。

Salesforce的研究科学家Bryan McCann表示,“深度学习模型通常非常脆弱,你可以有一个适用于翻译的模型,但是在情感分析或概述上可能不会很好。”

Salesforce Research首席科学家Richard Socher领导团队双管齐下地解决了这个问题。他们在PyTorch中开发了10种任务的自然语言处理挑战:自然语言十项全能(decaNLP)和一种可以解决它的模型,多任务问题应答网络(MQAN),一个用于Python编程的开源机器学习库语言。

McCann说:“我们设计了一个可以处理大量不同自然语言处理任务的通用模型。”

DecaNLP通过了语言测试的挑战,包括问答(在这个测试中,模型接收到一个问题和情境,其中包含了到达答案所必需的信息)和机器翻译(其中模型翻译输入从一种语言到另一种语言的文档)。有文档摘要测试,自然语言推理测试,情感分析测试,语义角色标注测试,关系提取测试,面向目标的对话测试,查询生成测试和代词解析测试。

MQAN训练图(完整gif请访问原文链接)

为了判断模型的性能,研究人员对每个测试的结果进行了标准化,并将它们加在一起,得出一个数字在0到1000之间的decaScore。

研究人员发现,在没有任何特定于任务的模块或参数的情况下,MQAN在所有10个测试中联合训练,则至少可以执行10个单独测试。在某些领域,特别是机器翻译和命名实体识别的转移学习,情感分析和自然语言推理的领域适应,以及文本分类的能力,与单任务模型相比改进了很多。

McCann指出,“一项训练任务涉及将自然语言问题翻译成数据库查询语言,我们没有明确优化,但我们实际上拥有最先进的性能。我们已经降低了解决NLP问题的难度。”

Socher表示,该模型在未经过训练的任务中表现良好的能力可以为更强大,更自然的聊天机器人铺平道路,更好地从人类用户的问题中推断出意义。

获取数据集和培训的代码将于今天发布,同时还有顶级decaScores排行榜。据该团队介绍,在GPU上训练模型需要几天的时间。

论文网址:einstein.ai/static/images/pages/research/decaNLP/decaNLP.pdf

本文分享自微信公众号 - ATYUN订阅号(atyun_com)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯社交用户体验设计

ISUX Xcube智能一键生成H5

51520
来自专栏haifeiWu与他朋友们的专栏

复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

30440
来自专栏腾讯高校合作

【倒计时7天】2018教育部-腾讯公司产学合作协同育人项目申请即将截止!

16220
来自专栏前端桃园

知识体系解决迷茫的你

最近在星球里群里都有小伙伴说道自己对未来的路比较迷茫,一旦闲下来就不知道自己改干啥,今天我这篇文章就是让你觉得一天给你 25 个小时你都不够用,觉得睡觉都是浪费...

22440
来自专栏FSociety

SQL中GROUP BY用法示例

GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

5.2K20
来自专栏钱塘大数据

理工男图解零维到十维空间,烧脑已过度,受不了啦!

让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

34930
来自专栏怀英的自我修炼

考研英语-1-导学

英二图表作文要重视。总体而言,英语一会比英语二难点。不过就写作而言,英语二会比英语一有难度,毕竟图表作文并不好写。

12310
来自专栏钱塘大数据

中国互联网协会发布:《2018中国互联网发展报告》

在2018中国互联网大会闭幕论坛上,中国互联网协会正式发布《中国互联网发展报告2018》(以下简称《报告》)。《中国互联网发展报告》是由中国互联网协会与中国互联...

13750
来自专栏Ken的杂谈

【系统设置】CentOS 修改机器名

18330
来自专栏微信公众号:小白课代表

不只是软件,在线也可以免费下载百度文库了。

不管是学生,还是职场员工,下载各种文档几乎是不可避免的,各种XXX.docx,XXX.pptx更是家常便饭,人们最常用的就是百度文库,豆丁文库,道客巴巴这些下载...

44730

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励