全国知识图谱与语义计算大会 - 实体发现与链接比赛总结

背景

互联网大数据时代中,随着机器语义理解需求的日益增长,知识图谱,即各类实体、概念及其之间的语义关系,日益成为大数据时代知识表示的主要形态之一,并在学术界、产业界中掀起一股股浪潮。

2016年9月19-22日,全国知识图谱与语义计算大会(简称CCKS)在北京召开。来自全国学术界、产业界从事知识图谱相关研究的400多人参加,探讨了知识图谱领域的新发现、新技术和新应用,旨在向社会公众介绍知识图谱相关领域的发展趋势和创新成果,进一步推动知识图谱技术领域的发展。本届CCKS会议主题为:语义、知识与链接大数据。鹅场作为互联网的中坚力量,在本届CCKS会议上有着这不俗的表现。

群雄集结,紫禁之战

早在今年5月全国知识图谱与语义计算大会(CCKS 2016)[1]就举办了一场评测竞赛,广发英雄帖邀约知识图谱界群雄一较高低。鹅场AI平台部知识挖掘组成员集结出战。

评测竞赛包括3个任务[2]:实体发现与实体链接、链接预测与元组分类、产品预测。鹅场AI平台部知识挖掘组参加了其中的实体发现与链接任务,此任务共有48支队伍报名参加,最终8支队伍提交结果,且有4支队伍撰写并提交论文。

经过层层高手过招,鹅场兄弟们不负众望,摘得桂冠,且在几个主要分指标上都位居榜首。此次评测竞赛脱颖而出的优秀队伍被邀请至9月22日紫禁城(CCKS 2016)一聚,并对竞赛的成果进行了精彩的分享。

AI平台部知识挖掘组此次比赛任务中是如何突破重围勇夺冠军,他们的杀手锏和秘籍是什么….本文将为你一一揭晓。

图1:参加单位情况

图2:评测结果。NED是命名实体识别子任务,

EL是实体链接子任务,Overall是总体指标

实体发现与链接任务介绍

实体发现与链接任务为限定领域的任务,简称DSEDL(Domain-Specific Entity Discoveryand Linking)。即对于给定的一组限定领域(比如影视、体育等领域)的纯文本文件,任务的目标是识别并抽取出与领域相关的实体名字(mention),并将它们链接到给定知识库对应的实体(entity)。实体名字具有歧义性和变异性,也就是同一个实体名字,有可能指代多个实体,需要根据上下文消歧;此外,同一个实体可能有多个实体名字与之对应,比如别名,绰号,昵称等等,需要将这些所有的名字变种都识别出来。

图3是一个在一段普通文本上的进行实体发现与链接的例子。首先从普通文本中识别出实体名字(mention),然后将它链向知识库里正确的实体。

图3:实体发现与链接例子,首先从文本中识别出实体名字,然后再链向知识库里相对应的实体

任务的输入包括[3]:

1. 纯文本影视评论文件集;

2. 影视知识库。

影视评论以纯文本的格式存储,一个文件一条评论,包括长评(上千字)和短评(几个字),数据存在一定的噪声(存在各种灌水帖、广告贴,与影视无关)。评论中出现的与影视相关的实体名字分为两大类:影视人物及影视作品。影视人物包括演员、导演、制片人、编剧、主持人等,影视作品包括电影、连续剧、综艺节目等。影视知识库(Keg-Movie-Ontology)是由清华大学计算机系知识工程实验室构建的完全结构化的双语影视本体,包括23个概念,91个属性,70余万个实体以及1000多万个三元组,其数据源包括LinkedIMDB,百度百科,豆瓣等。本次评测发布的数据是一个子集,仅包含豆瓣的词条。

任务的输出包含[3]

1. 影视评论中的实体名字(包含各类名称变种);

2. 实体名字对应的影视知识库(KMO)中的实体。

图4 输入与输出例子

实现思路与方法

1. 系统介绍

实体发现与链接的一般流程是首先从文本中识别出所有的命名实体的名字(mention),然后为这些mention生成候选的实体集合,随后对这个集合里的实体进行排序并选取最高的那个作为链接实体返回。但有时候这个mention所关联的实体有可能不在我们的知识库里,所以一般在最后还有一步NIL预测。

限定领域中的实体发现与链接任务(比如这次的影视领域)的一个主要特点就是伪实体(FNE,ake named entity)[4]存在特别多。比如“回家”、“时间”、“世界”这些平时的普通词都是电影实体。上面的这个顺序执行结构一个主要问题是如果在实体识别这一步错了,后面就没有办法再补救了;而在限定领域中文本的语义一致性对实体识别是非常有帮助的;而实体识别的结果又可以反过来改进实体链接过程[4]。所以这次我们的系统是把实体发现和实体链接作为一个相互依赖的整体来考虑的。简单来说,就是在实体识别阶段其依赖于实体链接的结果,而在实体链接阶段其依赖于实体识别的结果。根据这个基本思想,由此我们设计出了这个基本系统。图5是我们的系统架构图,图6是最终决策模块架构图。

图5:总体系统架构图

图6最终决策模块架构图

整个系统主要由以下四个模块构成:

别名词典构建模块。这个模块主要是对知识库的名称和别名进行去噪,然后去一些外部语料挖掘一些人物和电影电视剧的别名。主要是从百度百科、搜索query和豆瓣评论中去挖掘。

候选生成模块。这个模块的功能就是针对上一步生成好的别名词典,从文本中识别出所有的实体 mention(里面肯定有很多不是实体),针对每一个 mention,把所有的候选 entity 都包括进来。目的就是尽可能大的增加召回,为后续模块使用,实现方式采用 Trie 树最长匹配。错别字召回在这里实现。但召回并不是越多越好。特定领域(影视领域)知识库包含了比一般领域知识库在这个领域更多的实体,所以更容易出现FNE[4](fake named entity)。比如“这样”,“世界”,“时间”等在评论中的普通词,在知识库里都是电影电视剧实体。如果这些都召回,必然造成召回集合非常大,特别是长评,对后面模型的训练增加非常多的负例,增加噪音,影响模型精度。所以针对这种很泛的别名我们会去掉。

特征生成模块。主要是为实体识别和实体链接生成相应的特征。其中主要包括:实体流行度、上下文相似度、分词特征、CRF实体识别特征、语义相关度特征和知识库相关特征。

模型预测模块。这个模块主要由两个部分组成,一个是基本的迭代流程,一个是最终决策流程。基本迭代流程是两个模型的预测分数分别做为对方的特征,相互迭代以达到收敛状态,具体算法可以见[4]。最终决策模块是采用了Ensemble Learning方式,用其他模型训练了几个的模型和基本模型一起通过投票方式做最终决策。

2. 实验结果

我们设置了两个baseline系统进行比较:

a.baseline1:迭代次数设为1

b.baseline2:不含Ensemble方法

c.treatment:提交的TEDL系统

图7:treatment和baseline的变现比较结果

图8:TEDL系统在不同类型评论中的表现

模型参数设置为迭代最大次数设定为50,收敛定义为连续两次NED score小于0.001;基本的NED和EL模型采用的是SVM模型,核函数采用的是径向基函数; EL模型2用的是GBDT,EL模型3用的是Ranking SVM; NED模型2和模型3都采用的是GBDT模型。

根据实验结果我们可以得到的结论是迭代策略和Ensemble方法能显著提高系统精度, 但是也增加了处理时间,特别是长评;长评的效果比短评要好,特别是对于EL的精度,这应该是由于上下文信息在EL任务中显得特别重要,而短评太短,里面含有较少的上下文mention。

3. 未来应用的思考

关于未来如何将系统进行更好的应用,我们有以下几点思考:

a) 如何更好的将实体发现与链接系统用到实际的的一些应用中。目前一些性能比较优异的一些算法普遍复杂度高所以都比较耗时,这在比赛或实验中不是太大问题,但是在实际应用中耗时是一个关键指标,另一个关键指标是能不能在大规模文本中进行应用。

b) Learning to Rank方法已经是被证明了做实体链接非常好的方法[6],但是它有一个很大的问题是需要足够量的标注。实体链接子任务的标注是非常耗时的,所以在实际应用中,不太可能会像比赛这样有大量的标注数据供你训练模型,可能只有很少量的标注用于测试。一个思路是采用无监督学习;另一个思路是采用半监督方式,用少量标注训练模型,采用bootstrapping方式不断的增大标注集合;还有一个思路是生成或借鉴标注数据,比如把无监督模型训练到一个比较好的精度,用它识别的结果作为训练数据,或者借助百科正文,它的anchor提供了的标注信息。

c) 可扩展问题。针对多个领域的实体链接问题,可能方法和创建的特征都不太一样,怎么样能够快速的扩展到一些新的领域。

d) 尝试深度学习方法。使用深度学习方法进行实体链接也是目前的研究方向。它的一个好处是不需要手工创建特征,能够学习到一些更深层次的语义信息,但问题是我们如何创建大量的训练数据。

当前研究领域与应用

AI平台部的知识挖掘组,正专注于全领域的知识图谱(TKG,Tencent Knowledge Graph)建设与相关应用。在知识图谱建设方面,目前我们库里有37个领域,98个类别,5700万+实体、10亿+三元组,上位词10000+,属性1800+,索引网站100+(包括百科类和垂直类),数据更新是每周进行。除了这些基础数据,我们还开展了无结构文本三元组挖掘、实体的事件库构建、上位词库构建、实体的语义表示与实体链接等。在相关应用方面,我们TKG作为基础NLP服务,支持AI平台部搜索、深度问答、个性化推荐等项目。

有兴趣的童鞋欢迎访问我们的主页:

http://bq.soso.oa.com:8080/portal

感谢这次一起并肩作战的兄弟们: fordwang、chinali、jasonqhjia、yongwzheng,也感谢锋哥(jayzhang)的指导和建议。

引用文献

1. http://ccks2016.cn/ccks-ch/program/

2. http://ccks2016.cn/ccks-ch/tasks/

3. http://ccks2016.cn/ch/task1.pdf

4. Jiangtao Zhang.: Domain-Specific Entity Linking via Fake Named Entity Detection.In Database Systems for Advanced Applications Volume 9642 of the series Lecture Notes in Computer Science pp 101-116 (2015)

5. Razvan Bunescu and Marius Pasca: Using encyclopedic knowledge for named entity disambiguation. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 9–16. Association for Computational Linguistics, Trento, Italy. (2006)

6. Z. Zheng, F. Li, M. Huang, and X. Zhu.: Learning to link entities with knowledge base. In NAACL, pp. 483-491. (2010)

7. D. Ceccarelli, C. Luccchese, S. Orlando, R. Perego, and S. Trani.: Learning relatedness measures for entity linking. In CIKM pp. 139-148 (2013)

8. Ratinov, L., Roth, D., Downey, D., Anderson, M.:Local and global algorithms for disambiguation to wikipedia. In: HLT’11. pp. 1375-1384

9. Sil, A., Cronin, E., Nie, P., Yang, Y., Popescu, A.M., Yates, A.: Linking named entities to any database. In:EMNLP-CoNLL’ 12. pp. 116-127

原文发布于微信公众号 - TEG云端专业号(TEGYunduan)

原文发表时间:2016-11-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

深度 | 可视化分析ICLR 2018:你想要的接收论文情况都在这

2676
来自专栏AI科技大本营的专栏

AI 行业实践精选:深度学习股市掘金

【AI100 导读】近年来在图像和语音识别等领域,深度学习技术所取得的突破引起了很大关注。目前在金融领域,深度学习的应用也越来越广泛。那么,深度学习可否应用到股...

2454
来自专栏大数据挖掘DT机器学习

什么是模式识别,与数据挖掘,机器学习关系又如何?

模式识别是对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。 英文“Patte...

3096
来自专栏AI科技评论

动态 | 谷歌让机器更懂语言的博大精深,发布最大消歧语料库

理解语言的核心自然是了解词语在文本中的不同含义。AI科技评论先说个中文笑话先: 领导:「你这是什么意思?」 下属:「没什么意思,意思意思。」 领导:「你这就不...

3579
来自专栏calmound

ZOJ 3620 Escape Time II

题意:      从初始房间到达终止房间需要经过一系列的房间,没经过一个房间会得到一个价值,从一个房间到达另一个房间同时需要消耗一定的时间,在规定的时间内从初始...

3134
来自专栏ATYUN订阅号

MIT突破:自我监督系统DON,机器人可在检查随机物体后理解它们并拾取

几十年来,装配线等受控环境中的机器人能够一次又一次地拾取同一物体。最近,计算机视觉的突破使机器人能够在物体之间进行基本区分。尽管如此,系统并没有真正理解物体的形...

602
来自专栏机器之心

学界 | 从零开始自学设计新型药物,UNC提出结构进化强化学习

生成具备期望属性的新型化合物 SMILES 字符串的深度强化学习算法工作流程。(A) 生成 Stack-RNN 的训练步。(B) 生成 Stack-RNN 的生...

572
来自专栏MixLab科技+设计实验室

如何量化一张图片的色彩关系?

上一期讲到Brandmark提出了一种表达色彩比例及关系的数据结构,无向色彩节点图,见下图:

662
来自专栏机器之心

AI算力需求6年增长30万倍、3.5月翻一番——OpenAI数据分析

1873
来自专栏鸿的学习笔记

The Brain vs Deep Learning(五)

Estimation of cerebellar input/output dimensions

602

扫码关注云+社区