腾讯AI Lab斩获知识图谱顶级赛事KBP 2017世界冠军

谢阅读腾讯AI Lab微信号文章,恭喜知识图谱团队首次出战KBP大赛就获得实体发现与链接任务三语总分第一名好成绩!

美国国家标准与技术研究院(NIST)主办的2017年国际知识图谱构建大赛(Knowledge Base Population,简称KBP)结果近日揭晓,腾讯AI Lab首次参赛,斩获实体发现与链接(Entity Discovery and Linking Track,EDL)任务冠军。KBP大赛始办于2009年,是国际上影响力最大、水平最高的知识图谱领域赛事,此次夺冠体现了腾讯在知识图谱、语义理解等技术领域的强劲技术实力。

实体发现与链接任务三语总分前十位排名表(各队伍为匿名)

知识图谱是试图结构化人类知识的技术,一般通过描述实体属性以及建立实体和实体之间的关系来实现。当前,自然语言处理的很多任务都需要知识图谱的支持, 比如问答系统中的query语义理解。举个例子,如果你查询「86版西游记主演有哪些?」,要完整理解这句话,第一步先理解「西游记」这个实体及其类别,这个任务叫实体发现,就是识别出「西游记」是一部电视剧。第二步要解决实体的歧义性,因为知识图谱包含了各个版本的「西游记」,实体链接的任务就是要根据查询里的上下文,例如这里的「86版」,把「西游记」链向知识图谱中正确的那一版「西游记」,也就是1986年上映的「西游记」。

顶级国际赛事展现技术构架 深度学习构建领先语义理解模型

实体发现与链接是KBP赛事的核心任务,需要从目标文本中识别出实体,并把它们链接到已有的知识库上,具有很高的技术挑战性,任务针对中文、英文、西班牙文三种语言,腾讯获得三语实体发现与链接总分第一名,单语上的指标分别是中文和西班牙文两项第一、英文第二。比赛历来受到学术界和工业界的广泛关注,本次任务共24支队伍参加,包括IBM、美国卡耐基梅隆大学和美国伊利诺伊大学香槟分校等国际一流科研机构,及阿里巴巴、北京邮电大学和浙江大学等国内知名企业及院校。

本次比赛中,腾讯AI Lab在目前业界领先的EDL架构中引入了篇章理解模型和关联图模型。篇章理解模型采用深度学习架构,通过大规模数据的训练能够更精准的理解篇章的语义;关联图模型是将整篇文章的所有重要信息一起建模到一个图结构当中,整体求解以达到全局最优。

自建知识图谱TopBase 未来延伸到自然语言深度理解力

知识图谱是自然语言处理领域的核心技术,目前腾讯AI Lab建设了一个名叫TopBase的知识图谱,目前涵盖50多个领域如人物、音乐、影视、体育、诗词等,亿级实体,10亿级三元组,并已广泛应用到天天快报、微信看一看及微信搜索,和腾讯云小微等业务。

TopBase知识示意图

机器学习、计算机视觉、语音识别和自然语言处理是腾讯AI Lab的四大基础研究方向,在此研究基础上与腾讯业务与合作伙伴需求结合,落地到内容、游戏、社交和平台型AI四大应用上。

知识图谱所属的自然语言处理(NLP)领域,腾讯AI Lab还着重于问答、对话、文本生成、自动摘要和机器翻译方面的核心研究,并与语音识别和计算机视觉领域进行跨界应用,如同声传译和图片描述生成等技术。最终的目标是让机器更好的理解并生成文字内容,提升理解、决策和创造力,最终能与人类通过自然语言进行交流。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

AI与深度学习重点回顾:Denny Britz眼中的2017

【导读】近日,博客WILDML的作者Denny Britz把他眼中的2017年AI和深度学习的大事进行了一番梳理和总结:从AlphaGo的自主学习到AlphaG...

3295
来自专栏ATYUN订阅号

UC Berkeley和CMU研究:双足机器人在离散地形上移动

与人类和大多数陆生动物一样,机器人需要在崎岖地形上移动,以便在灾难响应和搜救等应用中发挥作用。然而,设计能够处理离散立足点(如瓦砾或垫脚石)的控制算法是具有挑战...

1064
来自专栏数据派THU

谷歌大脑2017技术研究总结 | Jeff Dean执笔(附论文、 数据集)

本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处 本文长度为8311字,建议阅读10分钟 Jeff Dean回顾了谷歌大脑团队过去一年...

2785
来自专栏新智元

谁说AI没想象力?DeepMind破解灾难性遗忘密码,让AI也有记忆

暑假结束回到学校时,你可能会觉得前一年学过的东西已经统统忘光了。但如果你像人工智能系统那样学习,你会真的忘光光——当你第一天在课堂上坐下来时,你的大脑会把这当作...

603
来自专栏量子位

阿里达摩院开源语音识别模型DFSMN,准确率达96.04%

近日,阿里达摩院机器智能实验室开源了新一代语音识别模型DFSMN,基于世界最大的免费语音识别数据库LibriSpeech,该模型将全球语音识别准确率纪录提高至9...

1242
来自专栏镁客网

研究表明:狗的神经元数是猫的两倍,狗或比猫聪明 | 黑科技

1300
来自专栏AI科技评论

学界 | FAIR 实验室的 ICLR 2017:理解对话是一场漫长的博弈

AI科技评论按:在 ICLR 2017 举办之际,FAIR实验室撰文展示了团队在理解对话所做的研究和贡献,AI科技评论进行编译,未经许可不得转载。 建立一个有效...

3517
来自专栏窗户

数学对于人类意味着什么

  这个话题是个很常见的话题,也是一个很难说明的问题。每当闲着无事的时候,我都会去思考一下关于数学的问题。正值假期,我有很多的时间来思考。   昨天大年三十,母...

34312
来自专栏Vamei实验室

统计01:概述

完成了概率论之后,数据之旅的下一站就是统计。统计是研究数据的学科。它包括了数据很多方面,比如如何描述数据、如何通过抽样推测整体的信息、如何通过数据判断假设的真伪...

1847
来自专栏程序你好

在机器学习过程中分析并防止无意识的偏见

本文基于Rachel Thomas在QCon大会上的主题演讲“分析和防止机器学习中的无意识偏见”。

802

扫码关注云+社区