阿里获中文语法大赛 CGED冠军后,我们和领队科学家聊了聊中文语义识别

CGED官网

大数据文摘作品

作者:魏子敏

“相比英文,中文是连写的,所以首先要识别出词语的边界(即分词),这个是巨大的难点。” 阿里巴巴iDST自然语言处理首席科学家司罗这样向大数据文摘描述中文语义错误识别的困难所在。

11月24日,阿里巴巴iDST中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军

参赛机构比赛成绩公布

这是继今年在全球顶级的知识库构建测评KBP2017中,斩获英文实体发现测评全球冠军后,阿里iDST NLP 的团队的又一成绩。司罗告诉大数据文摘,两个比赛都是基于深度学习的模型,但建模方式和作用的数据集合不同。前者是英文的实体识别,主要处理自然语言处理中的经典课题,实体识别问题;而 CGED是中文的语法纠错,相比来看,任务更综合,语法纠错需要依赖很多预处理模块来做,比如分词、词性标注、实体识别、句法分析等。

CGED是自然语言处理领域的权威赛事,由IJCNLP联办,今年已是第四届。本次比赛中,主办方挑选了一些外国友人写的中文作文片段,希望参赛者用人工智能算法自动识别里面的语法语义错误。

司罗表示,iDST自然语言处理团队的这一成果接下来也会有一定的商业应用场景,比如,可以在中文输入法自动拼写纠错,网络文本规范资质检查,语音识别文字后处理等。

司罗介绍,中文语法诊断的挑战性在于,中文语言知识丰富、语法多样;人在判断一句话是否有错误的时候,会用到长期积累的知识体系(比如一句话是否通顺、两个词是否可以搭配、语义上是否成立等)。相比之下,比赛提供的训练数据非常有限,仅通过训练数据来识别错误是很困难的。此外相比英文,中文是连写的,所以首先要识别出词语的边界(即分词),这个是巨大的难点因为自然语言的歧义性是很高的,比如“习近平和特朗普/通话”可能会被错误的切分为“习近平和特朗/普通话”。

“而且中文的语法特征比较少,不像英文有相对严格的规范定义时态、单复数、一致性等语言规则,所以很多错误可以基于这些预先定义的规则来做。而中文错误更不符合规则,需要强大的语料库学习,以及良好的模型学习能力。”

本次大赛的赛题中包含的错误分为四种类型:

多词(Redundant)、缺词(Missing)、错词(Selection)和词序错误(Word Order)。

系统性能的评估也由易到难分为3个level:

detection level(识别句子有没有错误)、identification level(识别错误句子的具体错误类型)和position level(识别错误的位置和对应类型)

比赛要求诊断的四种错误类型

比如,“我要送給你一个庆祝礼物。要是两、三天晚了,请别生气”这句话,在第3个Level,AI需要明确指出“两、三天晚了”存在错误才能得分(正确用法应该是“晚了两、三天”)。

根据组委会公开的结果,司罗团队在所有的3个level的正确率都以较大优势位居第一,获取2017 CGED比赛的冠军。他们通过在深度学习中引入无监督的语法知识,同时结合了集成学习等方法。

技术细节上,IDST团队在bilstm-crf模型的基础上,结合了分词、词性、依存句法等特征,同时将language model等无监督的知识embedding到神经网络。依靠RNN结构以及词性、依存等特征,不光能识别短程的语法错误,比如“一头牛”好于“一只牛”;也能识别比较长程的语法错误,比如“虽然父母很辛苦,而且对孩子照顾得很好”中“虽然”和“而且“不搭配。此外,他们针对比赛的3个不同level,设计了不同的基于神经网络的snapshot emsembles方法。

而近日,iDST NLP的技术能力也已经在阿里云上开放。

司罗介绍了现在开放了四个模块

1)分词;2)词性标注;3)命名实体;4)情感分析。

“未来我们会有更多的基础NLP模块在阿里云上开放,比如:

实体关系,关键词识别,词向量,文本相似度,主题模型等等。”

司罗表示:“人工智能在对于自然语言的理解还处在起步阶段,要实现真正的语义理解还需要 5-10 年的跨越。我们正在积极和同行业顶尖机构学习交流,推动行业发展”。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-11-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户2442861的专栏

如果看了这篇文章你还不懂傅里叶变换,那就过来掐死我吧(3)

作者:Heinrich 链接:https://zhuanlan.zhihu.com/p/19763358 来源:知乎 著作权归作者所有。商业转载请联系作者...

881
来自专栏挖掘大数据

10种受欢迎的数据挖掘的实用分析方法

数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,本文将介绍数据挖掘中十种实用分析方法。

1965
来自专栏大数据挖掘DT机器学习

R语言学习路线和常用数据挖掘包

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方式...

3556
来自专栏企鹅号快讯

数据挖掘中的十大实用分析方法

1.基于历史的MBR分析 基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性...

2206
来自专栏AI科技评论

自然语言处理让人类都懵逼,看谷歌人工智能怎么破

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

3565
来自专栏量化投资与机器学习

【Matlab量化投资】GFTD指标程序化实现(附源码)

广发证券很早出过两篇研报。一篇名叫《基于修正 TD 指标的指数择时研究》、一篇名叫《基于GFTD的期指日内程序化交易策略》。今天编辑部就给大家进行实现。基于 M...

4038
来自专栏量子位

被遗忘的图灵:计算机、神经网络、人工智能……他是这一切之父

1305
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(3)—Apriori算法-论文引用与数据血统论

本文先通俗地介绍快速挖掘关联规则的Apriori算法,然后介绍发表这一算法的论文(它被引用了11480+次),最后关注此文的实际影响 与 传统影响因子的...

3686
来自专栏AI科技大本营的专栏

eBay数据科学家李睿:自然语言处理在eBay的技术实践

记者|谷磊 近日,在飞马网主办的“FMI人工智能&大数据高峰论坛”上,来自eBay的数据科学家李睿博士以“NLP(自然语言处理)在eBay的技术实践”为题做了主...

4489
来自专栏大数据挖掘DT机器学习

R语言学习路线和常用数据挖掘包

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习...

3336

扫码关注云+社区

领取腾讯云代金券