专栏首页腾讯AI实验室的专栏腾讯AI Lab斩获知识图谱顶级赛事KBP 2017世界冠军
原创

腾讯AI Lab斩获知识图谱顶级赛事KBP 2017世界冠军

谢阅读腾讯AI Lab微信号文章,恭喜知识图谱团队首次出战KBP大赛就获得实体发现与链接任务三语总分第一名好成绩!

美国国家标准与技术研究院(NIST)主办的2017年国际知识图谱构建大赛(Knowledge Base Population,简称KBP)结果近日揭晓,腾讯AI Lab首次参赛,斩获实体发现与链接(Entity Discovery and Linking Track,EDL)任务冠军。KBP大赛始办于2009年,是国际上影响力最大、水平最高的知识图谱领域赛事,此次夺冠体现了腾讯在知识图谱、语义理解等技术领域的强劲技术实力。

实体发现与链接任务三语总分前十位排名表(各队伍为匿名)

知识图谱是试图结构化人类知识的技术,一般通过描述实体属性以及建立实体和实体之间的关系来实现。当前,自然语言处理的很多任务都需要知识图谱的支持, 比如问答系统中的query语义理解。举个例子,如果你查询「86版西游记主演有哪些?」,要完整理解这句话,第一步先理解「西游记」这个实体及其类别,这个任务叫实体发现,就是识别出「西游记」是一部电视剧。第二步要解决实体的歧义性,因为知识图谱包含了各个版本的「西游记」,实体链接的任务就是要根据查询里的上下文,例如这里的「86版」,把「西游记」链向知识图谱中正确的那一版「西游记」,也就是1986年上映的「西游记」。

顶级国际赛事展现技术构架 深度学习构建领先语义理解模型

实体发现与链接是KBP赛事的核心任务,需要从目标文本中识别出实体,并把它们链接到已有的知识库上,具有很高的技术挑战性,任务针对中文、英文、西班牙文三种语言,腾讯获得三语实体发现与链接总分第一名,单语上的指标分别是中文和西班牙文两项第一、英文第二。比赛历来受到学术界和工业界的广泛关注,本次任务共24支队伍参加,包括IBM、美国卡耐基梅隆大学和美国伊利诺伊大学香槟分校等国际一流科研机构,及阿里巴巴、北京邮电大学和浙江大学等国内知名企业及院校。

本次比赛中,腾讯AI Lab在目前业界领先的EDL架构中引入了篇章理解模型和关联图模型。篇章理解模型采用深度学习架构,通过大规模数据的训练能够更精准的理解篇章的语义;关联图模型是将整篇文章的所有重要信息一起建模到一个图结构当中,整体求解以达到全局最优。

自建知识图谱TopBase 未来延伸到自然语言深度理解力

知识图谱是自然语言处理领域的核心技术,目前腾讯AI Lab建设了一个名叫TopBase的知识图谱,目前涵盖50多个领域如人物、音乐、影视、体育、诗词等,亿级实体,10亿级三元组,并已广泛应用到天天快报、微信看一看及微信搜索,和腾讯云小微等业务。

TopBase知识示意图

机器学习、计算机视觉、语音识别和自然语言处理是腾讯AI Lab的四大基础研究方向,在此研究基础上与腾讯业务与合作伙伴需求结合,落地到内容、游戏、社交和平台型AI四大应用上。

知识图谱所属的自然语言处理(NLP)领域,腾讯AI Lab还着重于问答、对话、文本生成、自动摘要和机器翻译方面的核心研究,并与语音识别和计算机视觉领域进行跨界应用,如同声传译和图片描述生成等技术。最终的目标是让机器更好的理解并生成文字内容,提升理解、决策和创造力,最终能与人类通过自然语言进行交流。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • XGBoost 源码阅读笔记(2):树构造之 Exact Greedy Algorithm

    本篇将继续向大家介绍 XGBoost 源码是如何构造一颗回归树,不过在分析源码之前,还是有必要先和大家一起推导下 XGBoost 的目标函数。

    程飞翔
  • 腾讯赵建春:AI浪潮下的高效运维思考及实践

    腾讯 SNG 助理总经理、GOPS 金牌讲师赵建春老师受邀出席大会,并带来精彩演讲《AI 浪潮下的高效运维思考与实践》。

    织云平台团队
  • Tensorflow 的 word2vec 详细解释:basic篇

    Word2Vec即Word to vector(词汇转向量)。我们希望词义相近的两个单词,在映射之后依然保持相近,词义很远的单词直接则保持很远的映射距离。

    腾讯移动品质中心TMQ
  • 学习笔记DL001 : 数学符号、深度学习的概念

    深度学习是机器学习拉出的分支,它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。本文主要介绍深度学习中的数学符号、数和数组。

    利炳根
  • 机器学习概念总结笔记(一)

    本部分介绍了机器学习算法的四大分类,即:监督学习、半监督学习、无监督学习和增强学习以及包括最小二乘回归、岭回归、LASSO回归、LARS回归在内的26大常见算法...

    serena
  • 腾讯AI Lab斩获知识图谱顶级赛事KBP 2017世界冠军

    感谢阅读腾讯AI Lab微信号文章,恭喜知识图谱团队首次出战KBP大赛就获得实体发现与链接任务三语总分第一名好成绩!

    旺仔小小鹿
  • 机器学习库初探之 Caffe

    Caffe 是一个清晰而高效的深度学习框架,其作者是博士毕业于 UC Berkeley 的贾扬清,目前在 Facebook 工作。Caffe 是纯粹的 C++/...

    吕晟
  • 一个 RNN 调研引发的点评推荐血案

    在这篇文章里,作者基于用户的评论内容,评估了十多种不同的 RNN 框架。这些 RNN 框架包括多层双向 GRU 和 LSTM,同时有 attention-bas...

    serena
  • Tensorflow 术语表

    本文主要简要介绍了广播操作、Graph(图)、Session(会话)、Tensor 等13个 Tensorflow 术语表。希望对大家了解学习 Tensorfl...

    Star先生

扫码关注云+社区

领取腾讯云代金券