前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google的PAWS数据集可帮助AI模型捕获单词顺序和结构

Google的PAWS数据集可帮助AI模型捕获单词顺序和结构

作者头像
AiTechYun
发布2019-10-14 12:18:20
1K0
发布2019-10-14 12:18:20
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

自然语言处理(NLP)(用于处理机器阅读理解的AI子领域)无法解决语音识别领域的所有问题,这是因为语法上的细微差别会极大地影响句子的含义。

Google认为,更大的数据多样性是解决NLP难题的关键之一,为此,它今天发布了一个新的语料库:英语单词扰乱(PAWS)。除了PAWS之外,它还提供了PAWS-X扩展,包括六种在类型上截然不同的语言:法语、西班牙语、德语、汉语、日语和韩语。这两个数据集都包含格式正确的复述和非复述对。Google表示,这可以将捕获单词顺序和结构的算法准确性从不足50%提高到85%至89%之间。

PAWS数据集包含108463个英语对的人类标签对,这些对源于Quora问题对(QQP)和Wikipedia页面。对于PAWS-X,它包括23659个人工翻译的PAWS评估对和296406个机器翻译的训练对

Google研究科学家Yuan Zhang和软件工程师Yang Yinfei在博客中写道:“即使机器学习模型具有理解复杂上下文措辞的能力,也很难学习某些模式。新的数据集为测量模型对顺序和结构的敏感性提供了有效的工具。”

PAWS引入了一种工作流程,用于生成共享多个单词的句子对。首先创建新的示例,短语会通过一个模型,该模型会创建可能是或不是释义对的变体。然后,由个人评估者对它们的语法进行判断,最后由一个团队确定它们是否相互解释。为了避免产生非释义的对,基于回译(将翻译后的文本翻译回原始文本的语言)添加了示例,这有助于在引入可变性的同时保留含义。

PAWS-X需要雇用人工翻译来翻译开发和测试数据集。机器学习模型翻译了训练集,人类针对每种前述语言对随机样本对执行了成千上万次翻译。一个子集由第二个工作人员验证,从而导致最终的语料库的单词级错误率小于5%

为了评估语料库对NLP准确性的影响,研究人员在其上训练了多种模型并测量了分类准确性。与基线相比,BERT和DIIN这两种模型有着显著的进步,BERT的准确性从33.5%提高到83.1%。

Zhang和Yang写道:“我们希望这些数据集将对研究界有用,以推动多语言模型的进一步发展,从而更好地利用结构,上下文和成对比较。”

据说在看的没有BUG

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档