专栏首页磐创AI技术团队的专栏​知识图谱与机器学习 | KG入门 -- Part1 Data Fabric

​知识图谱与机器学习 | KG入门 -- Part1 Data Fabric

编译 | Arno

来源 | Medium 【磐创AI导读】:本系列文章为大家介绍了知识图谱与机器学习。想要获取更多的机器学习、深度学习资源,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。

介绍

如果你在网上搜索机器学习,你会找到大约20500万个结果。确实是这样,但是要找到适合每个用例的描述或定义并不容易,然而会有一些非常棒的描述或定义。在这里,我将提出机器学习的另一种定义,重点介绍一种新的范式——Data Fabric[1]。

目标

解释Data Fabric与机器学习的关系

细节

  • 给出关于Data Fabric以及创建它的生态系统的描述
  • 用几句话解释什么是机器学习
  • 提出一种在Data Fabric内部可视化机器学习洞察(insight)的方法

主要理论

如果我们可以创建一个支持公司所有数据的Data Fabric,那么它内部的商业洞察力(business insight)可以被认为是一个缺陷(dent),发现这种洞察(insight)[2]的自动过程叫做机器学习。

第一节 什么是Data Fabric?

讨论Data Fabric时,我们应该提到几个词:图(graphs)、知识图谱(knowledge-graph)、本体(ontology)、语义(semantics)、链接数据(linked-data)。在你对这些定义有所了解后,我们可以说:

Data Fabric是支持企业所有数据的平台,它作为一个统一的框架来管理、描述、组合和访问数据。该平台由企业知识图谱构成以创建统一的数据环境。

我们把这个定义拆分成几部分。我们首先需要的是一个知识图谱。

知识图谱由数据和信息组成,还包含大量不同数据之间的链接。这里的关键是,在这个新模型下,我们不是在寻找可能的答案,而是在寻找确定的答案。我们想要的是事实——这些事实来自哪里并不那么重要。这里的数据可以代表概念、对象、事物、人,以及你头脑中的任何东西。图中填充了概念之间的关系和联系。

知识图谱还允许你为图中的关系创建结构。有了它,就可以建立一个框架来研究数据及其与其他数据的关系。

在这种情况下,我们可以向我们的数据湖(Data Lake)提出这个问题:这里存在什么?

数据湖的概念也很重要,因为我们需要一个地方来存储数据、管理数据并运行我们的任务。但我们需要一个智能数据湖,一个能理解我们拥有什么以及如何使用它的地方,这是拥有Data Fabric的好处之一。

Data Fabric应该是统一的,这意味着我们应该努力将组织中的所有数据组织在一个地方并真正地管理它。

第二节 什么是机器学习?

机器学习已经存在很长时间了,有很多关于它的描述、书籍、文章和博客,所以我不会用太多的章节来描述它,而只是把一些观点说清楚。

  • 机器学习不是魔法
  • 机器学习是数据科学工作流程的一部分
  • 机器学习需要数据的存在,至少现在是这样。

在这之后,让我给机器学习一个有点像借用来的和个性化的定义:

机器学习是一种自动的过程,通过使用算法来理解数据中的模式和一些数据表示,这些算法能够提取那些模式,而无需专门为此编写程序,从而创建能够解决特定(或多个)问题的模型。

你可以同意也可以不同意这个定义,现在的文献中有很多很好的定义,我只是觉得这个很简单,对我想表达的东西很有用。

第三节 在Data Fabric中进行机器学习

在爱因斯坦的引力理论(广义相对论)中,他从数学上提出质量可以使时空变形,而这种变形就是我们所理解的引力。我知道如果你不熟悉这个理论,听起来会很奇怪。我来解释一下。

在没有引力的狭义相对论的平行时空中,力学定律呈现出一种特别简单的形式:只要没有外力作用于一个物体上,它将沿着一条直线通过时空:沿着一条直线,以一个恒定的速度(牛顿力学第一定律)。

但是当我们有质量和加速度时,我们可以说我们处于重力之下。像Wheeler所说:

Spacetime tells matter how to move; matter tells spacetime how to curve.(时空告诉物质如何运动;物质告诉时空如何弯曲。)

在上图中,“立方体”是时空结构的一种表现,当物体在其中移动时,它会变形,“线”移动的方式会告诉我们,一个靠近的物体会如何靠近那个物体。所以重力像是下面这样的:

所以当我们有质量时,我们可以在时空中做一个“凹痕”,在那之后,当我们接近那个凹痕时,我们看到的是重力。我们必须离物体足够近才能感觉到它。

这正是我所提到的机器学习在Data Fabric中的作用。我知道听起来很疯狂,所以让我解释一下。

假设我们创建了一个Data Fabric,对我来说,最好的工具是Anzo。

你可以使用Anzo构建所谓的“企业知识图谱”,当然也创建了你的Data Fabric。

图的节点和边灵活地捕获了每个数据源的高分辨率孪生体——结构化或非结构化。该图可以帮助用户快速、交互式地回答任何问题,允许用户与数据进行对话,从而发现问题的洞察(insights)。

顺便说一下,我是这样描绘一个洞察(insight)的:

如果我们有Data Fabric:

我所建议的是一种洞察(insight)可以被认为是它的一个凹痕。而发现这种洞察(insight)的自动过程,就是机器学习。

所以现在我们可以说:

机器学习是一种自动发现Data Fabric中隐藏的洞察(insight)的过程,它使用的算法能够发现这些洞察(insight),而无需专门为此编写程序,从而创建模型来解决特定(或多个)问题。

使用fabric生成的洞察(insight)本身就是新数据,作为fabric的一部分而变得明确。也就是说洞察(insight)可以扩增图,可能会产生进一步的洞察(insight)。

在Data Fabric中,我们遇到了一个问题,试图在数据中找到那些隐藏的洞察(insight),使用机器学习我们可以发现它们。这在现实生活中会是什么样子?

Cambridge Semantics研究人员也用Anzo给出了答案,使用Anzo进行机器学习的解决方案用一个现代化的数据平台取代了这种单调乏味、容易出错的工作,该数据平台旨在快速集成、协调和将来自所有相关数据源的数据转换为优化的机器学习特性数据集。

Data Fabric提供了高级数据转换功能,这是快速有效的特性工程所必需的,可以帮助将关键的业务信号从无关的噪声中分离出来。

记住,数据是第一位的,这个新的范示使用内置的图形数据库和语义数据层集成和协调所有相关的数据源——结构化和非结构化数据都是如此。Data Fabric传递数据的业务上下文和含义,使业务用户更容易理解和正确使用数据。

重现性(reproducibility)对于数据科学和机器学习非常重要,因此我们需要通过管理数据集目录以及数据集成等方面,像数据质量处理,来轻松地重用和协调结构化和非结构化数据,这就是Data Fabric所提供的。它还保留了包含机器学习数据集的数据的端到端的起源,因此在生产中使用模型时很容易找出所需的数据转换。

在接下来的文章中,我将给出一个关于如何在这个新框架中进行机器学习的具体例子。

总结

机器学习并不新鲜,但它有一个新的范式,也许这就是这个领域的未来(这么说可能有点乐观)。在Data Fabric内部,提出了本体、语义、层次、知识图谱等新概念;但所有这些都可以改善我们思考和进行机器学习的方式。

在这个范式中,我们通过使用算法来发现Data Fabric中隐藏的洞察(insight),这些算法能够发现这些洞察(insight),而无需专门为此编写程序,从而创建模型来解决特定(或多个)问题。

下一篇我们将为大家介绍Data Fabric上的深度学习。

[1]: 译者尝试将其翻译为数据构建、数据结构、数据框架,但总觉得不能完整地表达它该有的意思

[2]: 对数据挖掘和分析,洞察其背后的规律

本文分享自微信公众号 - 磐创AI(xunixs)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 随机森林:这或许是集成学习中最经典的一个 Bagging 算法了

    在 集成学习概述 中已经知道了常用的集成算法有两种:Bagging 和 Boosting。而在 Bagging 中,随机森林(Random Forest,RF)...

    1480
  • 决策树学习笔记(三):CART算法,决策树总结

    推荐导读:本篇为树模型系列第三篇,旨在从最简单的决策树开始学习,循序渐进,最后理解并掌握复杂模型GBDT,Xgboost,为要想要深入了解机器学习算法和参加数据...

    用户2769421
  • ScaledInference:关于机器学习优化的类比

    作为成长型营销人员是非常激动人心的,机器学习是一个我们可以利用的强大的新工具。您可能已经听过很多关于人工智能,机器学习甚至强化学习的知识。但是,您可能没有太多渠...

    AiTechYun
  • VBA 12306火车票查询系统V1.0

    MsgBox "不允许搜索之前的车次!", vbExclamation, "VB小源码"

    巴西_prince
  • 人类历史上第一个可编程忆阻器计算机诞生!

    你有没有想过,智能手机将来也有可能直接处理复杂的人工智能任务?关键在它:人类历史上,第一个可编程忆阻器计算机。

    新智元
  • 陈天奇:机器学习科研的十年

    十年前,MSRA的夏天,刚开始尝试机器学习研究的我面对科研巨大的不确定性,感到最多的是困惑和迷茫。十年之后,即将跨出下一步的时候,未来依然是如此不确定,但是期待...

    量子位
  • 你真的了解病毒分析吗?反病毒专家深度揭密

    已经有不少朋友从后台咨询我怎么学习恶意样本分析?有做渗透测试的,有做大数据分析的,还有做应急响应、安全服务的,一直想给大家写一篇关于如何学习入门恶意样本分析以及...

    FB客服
  • 机器学习实践的10个小秘诀

    导读:对于开发人员而言,基于云的机器学习工具带来了使用机器学习创造和提供新的功能的可能性。然而,开发者想要在它们的应用程序中融入机器学习,通常会犯一些错误,本文...

    用户2769421
  • 深度学习模型大合集:GitHub 趋势榜第一,已斩获 8000+ 星

    最近,威斯康辛大学麦迪逊分校统计学助理教授、机器学习和深度学习研究者 Sabastian Raschka 在 GitHub 上创建了一个项目,包含大量深度学习架...

    小小詹同学
  • AI新人必看 | 参数和超参数还分不清楚吗?

    计算机学科里有太多的术语,而且许多术语的使用并不一致。哪怕是相同的术语,不同学科的人理解一定有所不同。

    用户2769421

扫码关注云+社区

领取腾讯云代金券