首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一图顶千言:知识图谱自动化加速,但手工工作仍然不可少

亲爱的数据,出品

亲爱的数据,出品

俗话说,一图顶千言。

近年来,行业对知识图谱(Knowledge Graph)的热情飙升。2020年,Gartner 宣布知识图谱处于炒作周期的顶峰。因为各行各业的企业都变得以数据为导向,并试图将他们持有的客户和用户信息(数据)转化为真金白银的收入。

亲爱的数据,出品

随着企业试图生成基于上下文的洞察力和更强大的数据集,人们对这项技术的兴趣随着人工智能的发展而增加。

但是,知识图谱并不是人们认为的流行、新颖的技术。它们的起源要古老得多,它们帮助解决了学术界和工程师数十年来困扰的问题。要理解知识图谱为何如此重要,掌握历史背景会很有帮助。

亲爱的数据,出品

互联网之父,英国计算机科学家Tim Berners-Lee 希望在这个世界中,计算机“能够分析网络上的所有数据——人与计算机之间的内容。” 他说,这将允许更大程度的自动化。

这是一个大型科幻现场,是未来。而知识图谱从 2007 年的DBpedia和 Freebase开始,直到 2012 年,谷歌知识图谱产品推出,并大放异彩。 在最早的形式中,知识图谱比互联网背后的原始概念早了几十年。

亲爱的数据,出品

从那以后,各家企业也加入了这一潮流,优步和爱彼迎都在吹捧自己的解决方案。擅长创建和管理知识图谱的人是美国硅谷劳动力市场的热门。许多大型科技公司雇佣了庞大的语言专家团队。

亲爱的数据,出品

例如,图所示的句子中,我们可以提取实体 Albert Einstein(爱因斯坦)、Germany(德国)、Theoretical Physicist (理论物理学)和 Theory of Relativity(相对论)以及爱因斯坦出生、职业和发展的关系。

一旦这个知识片段被合并到一个更大的知识图谱中,我们就可以使用逻辑推理来获得额外的链接(由虚线边缘显示),例如理论物理学家是一种实践物理学的物理学家,而相对论是物理学领域的知识。

知识图谱是 20 多年工作的结晶,具有提供更智能、更丰富的用户体验的潜力。

虽然我们可以感叹我们花了这么长时间才走到此处,但至少让我们庆祝一个事实,即现在有了一个可行的解决方案并帮助推动知识图谱向前发展。

亲爱的数据,出品

知识图谱,也称为人工智能上下文中的语义网络,从该领域的早期开始就被用作人工智能的世界知识存储,并已应用于计算机科学的所有领域。

尽管维基数据在吸引志愿者社区方面取得了成功,但一般来说,手动创建知识图谱的成本很高。因此,我们亟需可以用于创建知识图谱的任何自动化。

亲爱的数据,出品

直到几年前,自然语言处理 (NLP) 和计算机视觉 (CV) 算法都在努力做好文本实体识别和图像对象检测。这些算法提取对象之间的关系,需要一种表示,其中可以存储提取的关系以供进一步处理和推理。

从文本中提取实体和关系提取是 NLP 中的两个基本任务。执行实体和关系提取的方法包括基于规则的方法和机器学习。基于规则的方法利用句子的句法结构或指定如何在输入文本中识别实体或关系。机器学习方法利用序列标记算法或语言模型进行实体和关系提取。

从文本的多个部分提取的信息,需要相互关联,知识图谱提供了一种工具来实现这样的目标。

计算机视觉技术的目标是理解图像,即检测对象、描述它们的属性并识别它们之间的关系。

理解图像将启用重要的应用程序,例如图像搜索、问答和机器人交互。近年来,朝着这个目标取得了很大进展,包括图像分类和对象检测。计算机视觉算法大量使用机器学习方法,如分类、聚类、最近邻居和深度学习方法,如循环神经网络。

亲爱的数据,出品

计算机可以正确推断对象之间关系的技术,例如,人拿着桶,马从桶中喂食等。如果机器学习算法能够结合领域知识,它们可以表现得更好。知识图谱是捕获领域知识的有用数据结构。机器学习算法要求任何符号或离散结构,例如图,首先应转换为数字形式。我们可以使用称为嵌入的技术将符号输入转换为数字形式,词嵌入和图嵌入。

我喜欢知识图。

我喜欢数据库。

我喜欢跑步。

在上面的句子集中,我们计算一个单词出现在另一个单词旁边的频率,并将计数记录在一个矩阵中。例如,单词 I 在单词 like 旁边出现了两次,在单词 enjoy once 旁边出现,因此,这两个单词的计数分别为 2 和 1,每隔一个单词的计数为 0。我们可以按照表 1 所示的类似方式计算其他单词的计数。这样的矩阵通常称为单词共现计数。

亲爱的数据,出品

一个句子是一个词序列,词嵌入计算词在其中的共现。我们可以通过以下方式将此想法推广到图的节点嵌入:

(a)使用随机游走遍历图,为我们提供穿过图的路径;

(b)通过重复遍历图获得一组路径;

(c)计算这些路径上节点的共现,就像我们计算句子中单词的共现;

(d) 共现计数矩阵中的每一行都为我们提供了与其对应的节点的向量;

(e) 使用合适的维度减少技术以获得更小的向量,称为节点嵌入。

我们可以将整个图编码成一个向量,称为图嵌入。

计算图嵌入的方法有很多,但也许最简单的方法是将表示图中每个节点的节点嵌入的向量相加,以获得表示整个图的向量。

有向标记图是离散数学的基本结构,在计算机科学的所有领域都有应用。传统上,此类应用程序很小,并且是通过自上而下的设计和手动知识工程创建的。

现代知识图谱与经典知识图谱的区别特征是:规模化、自下而上发展、构建方式多样。

今天,我们看到的知识图谱的规模从未如此之大,但为了创建现代知识图谱,用自动化和众包来补充手动知识工程技术。

为数据集成提出自上而下的模式设计的困难,以及机器学习的数据驱动性质迫使采用自下而上的方法来创建知识图谱。

即使我们以自下而上的方式创建知识图谱,其模式的设计及其语义定义仍然很重要。虽然自动化可能会加快创建知识图谱的一些步骤,但手动验证和人工监督仍然必不可少。

这种协同作用为联合利用传统知识图谱技术和机器学习、众包和可扩展计算的现代工具开辟了令人兴奋的未知领域。(完)

亲爱的数据,出品

亲爱的数据,出品

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211218A04N3600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券