全国知识图谱与语义计算大会 - 实体发现与链接比赛总结

背景

互联网大数据时代中,随着机器语义理解需求的日益增长,知识图谱,即各类实体、概念及其之间的语义关系,日益成为大数据时代知识表示的主要形态之一,并在学术界、产业界中掀起一股股浪潮。

2016年9月19-22日,全国知识图谱与语义计算大会(简称CCKS)在北京召开。来自全国学术界、产业界从事知识图谱相关研究的400多人参加,探讨了知识图谱领域的新发现、新技术和新应用,旨在向社会公众介绍知识图谱相关领域的发展趋势和创新成果,进一步推动知识图谱技术领域的发展。本届CCKS会议主题为:语义、知识与链接大数据。鹅场作为互联网的中坚力量,在本届CCKS会议上有着这不俗的表现。

群雄集结,紫禁之战

早在今年5月全国知识图谱与语义计算大会(CCKS 2016)[1]就举办了一场评测竞赛,广发英雄帖邀约知识图谱界群雄一较高低。鹅场AI平台部知识挖掘组成员集结出战。

评测竞赛包括3个任务[2]:实体发现与实体链接、链接预测与元组分类、产品预测。鹅场AI平台部知识挖掘组参加了其中的实体发现与链接任务,此任务共有48支队伍报名参加,最终8支队伍提交结果,且有4支队伍撰写并提交论文。

经过层层高手过招,鹅场兄弟们不负众望,摘得桂冠,且在几个主要分指标上都位居榜首。此次评测竞赛脱颖而出的优秀队伍被邀请至9月22日紫禁城(CCKS 2016)一聚,并对竞赛的成果进行了精彩的分享。

AI平台部知识挖掘组此次比赛任务中是如何突破重围勇夺冠军,他们的杀手锏和秘籍是什么….本文将为你一一揭晓。

图1:参加单位情况

图2:评测结果。NED是命名实体识别子任务,

EL是实体链接子任务,Overall是总体指标

实体发现与链接任务介绍

实体发现与链接任务为限定领域的任务,简称DSEDL(Domain-Specific Entity Discoveryand Linking)。即对于给定的一组限定领域(比如影视、体育等领域)的纯文本文件,任务的目标是识别并抽取出与领域相关的实体名字(mention),并将它们链接到给定知识库对应的实体(entity)。实体名字具有歧义性和变异性,也就是同一个实体名字,有可能指代多个实体,需要根据上下文消歧;此外,同一个实体可能有多个实体名字与之对应,比如别名,绰号,昵称等等,需要将这些所有的名字变种都识别出来。

图3是一个在一段普通文本上的进行实体发现与链接的例子。首先从普通文本中识别出实体名字(mention),然后将它链向知识库里正确的实体。

图3:实体发现与链接例子,首先从文本中识别出实体名字,然后再链向知识库里相对应的实体

任务的输入包括[3]:

1. 纯文本影视评论文件集;

2. 影视知识库。

影视评论以纯文本的格式存储,一个文件一条评论,包括长评(上千字)和短评(几个字),数据存在一定的噪声(存在各种灌水帖、广告贴,与影视无关)。评论中出现的与影视相关的实体名字分为两大类:影视人物及影视作品。影视人物包括演员、导演、制片人、编剧、主持人等,影视作品包括电影、连续剧、综艺节目等。影视知识库(Keg-Movie-Ontology)是由清华大学计算机系知识工程实验室构建的完全结构化的双语影视本体,包括23个概念,91个属性,70余万个实体以及1000多万个三元组,其数据源包括LinkedIMDB,百度百科,豆瓣等。本次评测发布的数据是一个子集,仅包含豆瓣的词条。

任务的输出包含[3]

1. 影视评论中的实体名字(包含各类名称变种);

2. 实体名字对应的影视知识库(KMO)中的实体。

图4 输入与输出例子

实现思路与方法

1. 系统介绍

实体发现与链接的一般流程是首先从文本中识别出所有的命名实体的名字(mention),然后为这些mention生成候选的实体集合,随后对这个集合里的实体进行排序并选取最高的那个作为链接实体返回。但有时候这个mention所关联的实体有可能不在我们的知识库里,所以一般在最后还有一步NIL预测。

限定领域中的实体发现与链接任务(比如这次的影视领域)的一个主要特点就是伪实体(FNE,ake named entity)[4]存在特别多。比如“回家”、“时间”、“世界”这些平时的普通词都是电影实体。上面的这个顺序执行结构一个主要问题是如果在实体识别这一步错了,后面就没有办法再补救了;而在限定领域中文本的语义一致性对实体识别是非常有帮助的;而实体识别的结果又可以反过来改进实体链接过程[4]。所以这次我们的系统是把实体发现和实体链接作为一个相互依赖的整体来考虑的。简单来说,就是在实体识别阶段其依赖于实体链接的结果,而在实体链接阶段其依赖于实体识别的结果。根据这个基本思想,由此我们设计出了这个基本系统。图5是我们的系统架构图,图6是最终决策模块架构图。

图5:总体系统架构图

图6最终决策模块架构图

整个系统主要由以下四个模块构成:

别名词典构建模块。这个模块主要是对知识库的名称和别名进行去噪,然后去一些外部语料挖掘一些人物和电影电视剧的别名。主要是从百度百科、搜索query和豆瓣评论中去挖掘。

候选生成模块。这个模块的功能就是针对上一步生成好的别名词典,从文本中识别出所有的实体 mention(里面肯定有很多不是实体),针对每一个 mention,把所有的候选 entity 都包括进来。目的就是尽可能大的增加召回,为后续模块使用,实现方式采用 Trie 树最长匹配。错别字召回在这里实现。但召回并不是越多越好。特定领域(影视领域)知识库包含了比一般领域知识库在这个领域更多的实体,所以更容易出现FNE[4](fake named entity)。比如“这样”,“世界”,“时间”等在评论中的普通词,在知识库里都是电影电视剧实体。如果这些都召回,必然造成召回集合非常大,特别是长评,对后面模型的训练增加非常多的负例,增加噪音,影响模型精度。所以针对这种很泛的别名我们会去掉。

特征生成模块。主要是为实体识别和实体链接生成相应的特征。其中主要包括:实体流行度、上下文相似度、分词特征、CRF实体识别特征、语义相关度特征和知识库相关特征。

模型预测模块。这个模块主要由两个部分组成,一个是基本的迭代流程,一个是最终决策流程。基本迭代流程是两个模型的预测分数分别做为对方的特征,相互迭代以达到收敛状态,具体算法可以见[4]。最终决策模块是采用了Ensemble Learning方式,用其他模型训练了几个的模型和基本模型一起通过投票方式做最终决策。

2. 实验结果

我们设置了两个baseline系统进行比较:

a.baseline1:迭代次数设为1

b.baseline2:不含Ensemble方法

c.treatment:提交的TEDL系统

图7:treatment和baseline的变现比较结果

图8:TEDL系统在不同类型评论中的表现

模型参数设置为迭代最大次数设定为50,收敛定义为连续两次NED score小于0.001;基本的NED和EL模型采用的是SVM模型,核函数采用的是径向基函数; EL模型2用的是GBDT,EL模型3用的是Ranking SVM; NED模型2和模型3都采用的是GBDT模型。

根据实验结果我们可以得到的结论是迭代策略和Ensemble方法能显著提高系统精度, 但是也增加了处理时间,特别是长评;长评的效果比短评要好,特别是对于EL的精度,这应该是由于上下文信息在EL任务中显得特别重要,而短评太短,里面含有较少的上下文mention。

3. 未来应用的思考

关于未来如何将系统进行更好的应用,我们有以下几点思考:

a) 如何更好的将实体发现与链接系统用到实际的的一些应用中。目前一些性能比较优异的一些算法普遍复杂度高所以都比较耗时,这在比赛或实验中不是太大问题,但是在实际应用中耗时是一个关键指标,另一个关键指标是能不能在大规模文本中进行应用。

b) Learning to Rank方法已经是被证明了做实体链接非常好的方法[6],但是它有一个很大的问题是需要足够量的标注。实体链接子任务的标注是非常耗时的,所以在实际应用中,不太可能会像比赛这样有大量的标注数据供你训练模型,可能只有很少量的标注用于测试。一个思路是采用无监督学习;另一个思路是采用半监督方式,用少量标注训练模型,采用bootstrapping方式不断的增大标注集合;还有一个思路是生成或借鉴标注数据,比如把无监督模型训练到一个比较好的精度,用它识别的结果作为训练数据,或者借助百科正文,它的anchor提供了的标注信息。

c) 可扩展问题。针对多个领域的实体链接问题,可能方法和创建的特征都不太一样,怎么样能够快速的扩展到一些新的领域。

d) 尝试深度学习方法。使用深度学习方法进行实体链接也是目前的研究方向。它的一个好处是不需要手工创建特征,能够学习到一些更深层次的语义信息,但问题是我们如何创建大量的训练数据。

当前研究领域与应用

AI平台部的知识挖掘组,正专注于全领域的知识图谱(TKG,Tencent Knowledge Graph)建设与相关应用。在知识图谱建设方面,目前我们库里有37个领域,98个类别,5700万+实体、10亿+三元组,上位词10000+,属性1800+,索引网站100+(包括百科类和垂直类),数据更新是每周进行。除了这些基础数据,我们还开展了无结构文本三元组挖掘、实体的事件库构建、上位词库构建、实体的语义表示与实体链接等。在相关应用方面,我们TKG作为基础NLP服务,支持AI平台部搜索、深度问答、个性化推荐等项目。

有兴趣的童鞋欢迎访问我们的主页:

http://bq.soso.oa.com:8080/portal

感谢这次一起并肩作战的兄弟们: fordwang、chinali、jasonqhjia、yongwzheng,也感谢锋哥(jayzhang)的指导和建议。

引用文献

1. http://ccks2016.cn/ccks-ch/program/

2. http://ccks2016.cn/ccks-ch/tasks/

3. http://ccks2016.cn/ch/task1.pdf

4. Jiangtao Zhang.: Domain-Specific Entity Linking via Fake Named Entity Detection.In Database Systems for Advanced Applications Volume 9642 of the series Lecture Notes in Computer Science pp 101-116 (2015)

5. Razvan Bunescu and Marius Pasca: Using encyclopedic knowledge for named entity disambiguation. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 9–16. Association for Computational Linguistics, Trento, Italy. (2006)

6. Z. Zheng, F. Li, M. Huang, and X. Zhu.: Learning to link entities with knowledge base. In NAACL, pp. 483-491. (2010)

7. D. Ceccarelli, C. Luccchese, S. Orlando, R. Perego, and S. Trani.: Learning relatedness measures for entity linking. In CIKM pp. 139-148 (2013)

8. Ratinov, L., Roth, D., Downey, D., Anderson, M.:Local and global algorithms for disambiguation to wikipedia. In: HLT’11. pp. 1375-1384

9. Sil, A., Cronin, E., Nie, P., Yang, Y., Popescu, A.M., Yates, A.: Linking named entities to any database. In:EMNLP-CoNLL’ 12. pp. 116-127

原文发布于微信公众号 - TEG云端专业号(TEGYunduan)

原文发表时间:2016-11-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

最全技术图谱!一文掌握人工智能各大分支技术

662
来自专栏人工智能头条

深度学习和拓扑数据分析的六大惊人之举

1173
来自专栏数说工作室

训练集是题库,测试集就是高考!| 不能更简单通俗的机器学习名词解释

1. train? valid? or test? 机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说,就是需要大量的带标签数据(labeled da...

3928
来自专栏机器之心

观点 | Reddit 热门话题:如何阅读并理解论文中的数学内容?

选自Reddit 机器之心编译 参与:Panda 有的机器学习论文中有大量的数学公式和推导过程,读这样的论文往往很是费力费时。为了了解阅读这样的论文的技巧,Re...

2768
来自专栏华章科技

深度神经网络(DNN)是否模拟了人类大脑皮层结构?

我是生物本科,认知神经科学研究生在读,课余时间比较喜欢编程和机器学习,正在自学,了解的稍微多一些。我试着从我的角度来说下我看到的深度学习和神经科学的联系。

281
来自专栏新智元

褚达晨:深度学习青衫磊落险峰行,人工智能漫谈之一

【新智元导读】作者褚达晨认为,科技发展让人类借助计算机的能力,在一个超高维弯曲空间中,搜寻自然世界奥秘。而深度学习则是利用最近年发展起来的大算力,让计算机代替人...

2638
来自专栏数据科学与人工智能

【数据科学】数据科学可以做什么

机器学习是数据科学的发动机。每种机器学习方法(也称为算法)获取数据,反复咀嚼,输出结果。机器学习算法负责数据科学里最难以解释又最有趣的部分。数学的魔法在此发生。...

27110
来自专栏机器学习算法与Python学习

最好用的 AI 开源数据集(涵盖计算机视觉、NLP、语音等 6 大类)

1 新智元编译 来源:medium.com 编译:刘小芹 【新智元导读】本文按计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类,精心整...

2986
来自专栏数据科学与人工智能

【数据科学】数据科学能回答什么样的问题?

机器学习是数据科学的发动机。每种机器学习方法(也称为算法)获取数据,反复咀嚼,输出结果。机器学习算法负责数据科学里最难以解释又最有趣的部分。数学的魔法在此发生。...

2148
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(5)—分房与分类

中老年回顾歌曲集中有这样一首歌:月亮在白莲花般的云朵里穿行,晚风吹来一阵阵欢乐的歌声,我们坐在高高的谷堆旁边,听妈妈讲那过去的事情……   歌词美,旋律也美...

2603

扫描关注云+社区