Forrester 认为 Data Fabric“是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。”其专注于对数据集成、转换、准备、策展、安全、治理和编排的自动化,从而实现了快速的数据分析和洞察,帮助业务获得成功。
Gartner 将 Data Fabric 定义为一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付。Gartner 强调,通过 Data Fabric,散落各处的数据孤岛都能被统一发现和使用,并基于主动元数据进行建设和持续分析,认为数据编织的真正价值在于它能够通过内置的分析技术动态改进数据的使用,同时通过将自动化能力添加到整体数据管理中,使数据管理工作量减少 70% 并加快价值实现速度。
Data Fabric这一概念,尤其鲜明的架构特点,这也是有别于其他技术的重要区别。其实质上是一种数据管理架构思想,其主要目标是打破企业内部的数据孤岛、最大化释放数据价值。其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从而提供比传统数据管理更多的价值。其具备以下特点:
连接数据,而非集中数据
Data Fabric 的一个关键原则是数据集成方法的灵活性,以支持分布式生态系统中的数据管理。也就是说,根据场景的性质及其需求,系统能为用户自动匹配最佳集成策略和数据技术,而无需用户人工搭建数据管道、选型计算存储方案。这样做一方面让用户可以专注于业务实现而无需关心技术细节,另一方面也免去了数据搬运带来的漫长等待,并节省了大量任务运维投入和重复存储成本,极大加速了数据价值实现。
Data Fabric 的“真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度”,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用 AI 能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,实现更快速的适应业务、更敏捷的数据洞察、更有效地消除孤岛、更低的成本和风险、更高效的业务协作以及更安全的数据使用。
Data Mesh由ThoughtWorks提出,其借鉴了微服务和 Service Mesh 的分布式架构思想,是一种领域驱动和自服务的数据架构设计新模式,基于面向领域去中心化的数据所有权和架构、数据作为产品、平台化自助数据基础设施以及联邦计算治理等四个基本原则进行建设, 通过将系统划分为由较小的跨职能团队管理的离散域来解决大型、复杂、单体数据架构的问题,如缺乏数据所有权、缺乏数据质量管理、组织难以扩展。其核心目标是将数据视为一种产品,通过利用面向领域的自助设计来实现日益庞大、多样化且无处不在的数据集的跨域访问需求,使数据消费者能够发现、理解、信任和使用数据/数据产品(分布在不同领域)来推动数据驱动的决策和计划。
API 的访问方式不同。Data Mesh是面向开发同学、API驱动的解决方案,需要为API编写实现代码,而Data Fabric相反,其通过低代码、无代码的方式进行设计,API集成在架构内进行实现,而不是直接使用它。
数据中台方法的本质思想是通过对数据进行集中式建设、集中式管理和集中式服务,以提供单一事实来源的数据(single source of truth)。这就决定了数据中台只有在数据需求较为固定、用数人群比较集中、决策频率相对较低的情况下是比较有效的。伴随企业数据需求日趋复杂、用数人群占比越来越大,决策频率越来越高,业务对用数的敏捷性和灵活性要求越来越高,数据中台这种集中的数据管理方式无法实现数据的敏捷性和灵活性。Data Fabric旨在提供对创新深度、速度要求更高的创新型业务更为合适。
2. Data Fabric 价值及能力
❖ 产品价值
Data Fabric的真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用AI能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,产生:
Data Fabric (数据经纬)目前是一个IT热点,众多国内外公司均推出了针对 Data Fabric 的解决方案。下面看看几个典型厂商的产品及方案。
❖ IBM - Cloud Park for Data
IBM 公司的Cloud Pak for Data针对上述Data Fabric (数据经纬)拥有四个 AI赋能的自动化能力。
AutoCatalog:元数据的管理是挖掘数据价值,把各个不同来源的数据很好利用起来的重要技术环节。AutoCatalog 可以看成是 IBM 研发 AI 赋能的分类大脑,可以根据发现数据和分类的流程实现自动化,进行自动分类之后建立自动化目录,维护来自不同数据环境数据资产的 Dynamic 的实时目录。
AutoAI:AutoAI 的主要功能是尽量降低 AI 模型开发、模型校正、模型自我重新培训的技术门槛和人力付出,从而对动态的数据和整个 AI 本身算法生命的周期进行自动化。
AutoPrivacy:实际上 AutoPrivacy 主要是通过数据隐私框架当中的关键能力,使用 AI 的能力智能化地识别企业内部的敏感数据,当被调用的时候系统能够识别到、监控到,甚至在后续当定义敏感数据的使用和保护时,就可以为企业内部的政策实施自动化提供了技术和智能化的保障。
主动元数据。主动元数据是实现 Data Fabric 的基石,它类似于智能驾驶汽车的传感器及信号解析处理模块,为推荐引擎、DataOps、数据虚拟化和主动数据治理提供了数据支撑。数据管理策略的有效性绝大部分取决于主动元数据建设的好坏,企业落地 Data Fabric 的首要任务,就是构建全面、准确、实时的主动元数据,并持续优化以获得更好的数据管理效果。其具备如下能力:快速发现全链路元数据、实时、精细、准确的全链路血缘、采集数据生态的所有元数据、以知识图谱方式组织元数据、实时、高效、易扩展的数据画像打标等。
增强数据目录。Aloudata 增强数据目录 (Aloudata BIG Catalog) 以主动元数据为核心,将 AI 和机器学习用于元数据收集、语义推理和分类打标,自动对数据进行编目,从而最大限度减少手工维护元数据的工作,从而为业务人员提供以下关键特性和体验:语义化数据搜索、全景数据画像、可视化血缘分析、全域数据探索等。
数据虚拟化。数据虚拟化是实现 Data Fabric 的核心,它承担了业务人员自助完成数据集成、准备和交付的关键职责,它在数据源与数据消费端之间提供了一个连接、整合以及消费数据的虚拟语义层,用户可以通过定义数据查询来完成数据转换,从而实现对跨源、跨环境 (如多云、混合云、Saas 软件供应商) 的数据进行透明集成、自助准备以及高性能服务。其具备如下能力:高性能联邦查询、全场景智能加速、全链路数据编排、零运维数据更新、标准化协议接入、精细化安全管控等。