BigDataplus

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

        元数据是关于数据的数据，是对数据的描述，元数据又分为三类：管理元数据、业务元数据和技术元数据。而字段或表级血缘关系就是技术元数据，关于业务元数据和管理元数据等元数据相关知识笔者给出前期文章分享链接，笔者这里不再赘述。

元数据：跨引擎超完备字段级血缘关系解题方法

   数字化转型是业务、流程、管理和技术一次变革，随着企业数字化进程加快，各业务形态整合深入，相关业务系统迭代加速，数据多样性非结构化、半结构化和结构化数据涌现且数据量级呈井喷式增长。在信息时代，数据已和资本、土地、技术，知识和管理同样重要的生产要素存在，同时，数据消费者对准确性和时效性数据迫切需求与日俱增，如何提升数据质量方法很多，以后另做分享，此篇讲解数据质量监控的重要性，因为大数据技术暴露出的问题有可能超出开发同学的认知，有同学自信满满这写肯定没问题，实际上出现超出了其认知的问题出现了，就会发生数据故障，待发现时为时已晚，所以数据质量监控能不以人的意志为转移地识别超出认知的是否有数据质量问题，重要性不言而喻。

数据质量监控好，数据开发背锅少

        随着大数据时代的到来，伴随着是“海纳百川、有容乃大”种类繁多的海量数据爆炸式增长；有“天下武功，为快不破”惊人的数据处理速度；可挖掘“运筹帷幄胜千里之外”支持决策的数据价值。同时，信息社会不断向纵深发展，数据和信息作为战略性资源的价值正在快速提升。当前，数据的战略价值已得到广泛重视，数据治理能力也成为了衡量一个企业、行业、乃至一个地区的经济社会发展水平的重要指标。

数据治理系列：一个数据质量监控系统的自我修养

        在构建数据仓库总线矩阵完成后，可着手事实表和维度表的设计。数仓总线矩阵里每个业务过程都会生成至少一张事实表（识别业务过程的本质就是识别要构建的事实表），因为有可能一个原子事件涉及多张表的情况。同时，因上游业务系统老旧，表设计水平、使用场景等因素，或并不是都是标准3NF范式设计，将多个业务过程事件发生存储在一张表的情况，对于此种情况做事实表设计时，根据使用场景可能会进行表拆分考虑，这里不再展开。这里重点讲述尽量可能将分散在各个业务系统中相同或相似的业务过程进行整合的情况。

数仓建模系列：关于事实表设计，多业务过程要不要合并，依据啥？

        最近笔者参与并完成了数据中台从0到1的建设，当然数据中台如何定义争论也很多，这里笔者此篇文章不去讨论，但数据仓库是数据中台能否解决数据复用、数据共享、数据服务和数据快速迭代等这些相对通用问题的关键一环，这是不可否认的。此篇文章来讲述在构建数据中台过程中数据仓库维度建模部分时，会犯的一些错误，其中重点讲述一些对理解业务过程的常见错误以及正确地理解何为业务过程，因为业务过程准确理解和识别是维度建模进行的关键步骤。

数仓建模系列：构建总线矩阵时，业务过程是到底个啥，这里摊牌了

    本篇文章笔者以Kimball维度建模方法论为前提关于维度展开的讨论，写一点关于维度的看法。在实际维度建模过程中，建模工程师在做维度设计时，往往分不清哪些是维度、哪些算事实或度量，同时也会产生这样或那样的疑问。到底什么是维度，可能有人会给出这样描述：

数仓建模系列：关于维度，别再傻傻分不清楚啦！

说明：本文分为四个部分内容：背景、Chandy_Lamport算法、Flink Checkpoint对齐机制和总结。

Flink分布式系统一致性快照Checkpoint机制详解

说到数据中台的产生，我们不得不从数据工作的痛点来切入。我总结了八个方向，这八个方向可能不足以覆盖数据工作中的所有痛点，但肯定是数据工作中最痛的八个点。

爱奇艺数据中台建设组合拳：日志投递、统一数仓、大数据平台

之前笔者在介绍 Flink 1.11 Hive Streaming 新特性时提到过，Flink SQL 的 FileSystem Connector 为了与 Flink-Hive 集成的大环境适配，做了很多改进，而其中最为明显的就是分区提交（partition commit）机制。

Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 ​

  有数据分析师曾抱怨：80%时间在清洗数据、加工数据和识别数据，仅有20%时间在做数据分析。面临这种困境的原因，大致有三点：

数据探查：让数据分析师羽扇纶巾，谈笑间，樯橹灰飞烟...

        数据血缘关系包含了集群血缘关系、系统血缘关系、表级血缘关系和字段血缘关系，其指向数据的上游来源，向上游追根溯源。这里指的血缘关系一般是指表级和字段级，其能清晰展现数据加工处理逻辑脉络，快速定位数据异常字段影响范围，准确圈定最小范围数据回溯，降低了理解数据和解决数据问题的成本。同时数据血缘关系可与数据质量监控系统进行完美的整合，重要数据质量检测异常结果可通过数据血缘关系直接定位影响范围。

数据血缘关系：图数据库Neo4j存储实现

        数据标准是保证数据一致地、准确地交换和共享的一系列规范性约束。具体可从数据编码，名称、术语、语义、计算口径、字段、数据类型和数据格式等统一数据标准化。数据标准管理可强化了数据语义理解的一致性，提升了数据共享和数据交换能力，加速了数据流通，凸显数据价值，提高了彼此协同工作效率。

健康医疗数据治理之数据标准化(附35页PPT)

        据说，英语中元数据meta一词最早出现于1968年，其是对希腊语前缀"meta-"的粗略翻译，用于表明更抽象层次的事物。尽管元数据一词只有几十年的历史，然而几千年的图书馆管理员们一直在工作中使用着元数据，只不过我们先所谓的“元数据”是历史上被称为"图书馆目录信息"。图书目录中的信息解决了一个十分关键的问题，就是如何帮助用户在图书馆快速地、准确地找到想要的资料。

元数据：数据治理的基石

        说明：由于数据全生命周期管理主题涉及内容较多，因此分两篇文章分享。数据全生命周期(采集、存储、整合、呈现与使用、分析与应用、归档和销毁）相关内容在此篇文章“数据全生命周期管理(一)”分享；数据全生命周期管理（元数据管理、数据质量管理、数据安全管理、数据价值管理、配套管理办法和流程和数据全生命周期管理监控平台设计）相关内容放在接下来文章“数据全生命周期管理(二)”分享。  

数据全生命周期管理(一)

        随着大数据时代的到来，流动的数据已经成为连接全世界的载体，也成为促进经济社会发展、便利人们产生生活的源动力。伴随着数据的流动，尤其是为了解决流动过程中产生的一系列问题，”数据治理“流行起来。而要了解数据治理及数据质量，还得从数据、数据治理、数据质量这些基本概念说起。

数据质量：数据治理的核心

  ANTLR是一款功能强大的语法分析器生成器，可用来读取、处理、执行和转换结构化文本或二进制文件。它被广泛应用于学术界和工业界构建各种语言、工具和框架。Antlr在Hadoop整个生态系统应用较为广泛，如Hive 词法文件是Antlr3写的；Presto词法文件也Antlr4实现的；SparkSQL词法文件是用Presto的词法文件改写的；还有HBase的访问客户端Phoenix也用Antlr工具进行SQL解析的等等。

Antlr4实战：统一SQL路由多引擎

        Flink 任务是一个DAG图，由多个节点（Operator）组成，部分上下游的节点在运行时可以合成为一个节点，称为算子链Chain。Chain后的节点，总CPU为所有节点CPU的最大值，总内存为所有节点内存的总和。多节点合成一个节点可以有效的减少网络传输，降低成本。但如一个任务DAG过大，需根据实时情况对算子链Chain进行拆解操作。接下来对算子链三种策略进行说明、策略对应的使用方法、哪些算子可进行操作和在何处应用并举例讲解。

Flink优化器与源码解析系列--算子Chain策略优化

        本文参考Flink1.10官方多篇文章相关知识收集、翻译、整合和内化而写成的关于Flink内存模型详解的文章，其中Job Manager、Task Manager和Client 分别是什么，各自之间的运行关系怎样，任务运行过程中所使用任务槽和资源情况的内存模型构成详解，内存设置需要配置哪些参数，参数功能描述等。暂时不熟悉Flink相关概念的童鞋自觉查阅笔者以往分享关于Flink术语基本概念的文章链接：Flink优化器与源码解析系列--Flink相关基本概念。

Flink优化器与源码解析系列--内存模型详解

 Apache Flink是用于分布式流和批处理数据处理的开源平台。Flink的核心是流数据流引擎，可为数据流上的分布式计算提供数据分发，通信和容错能力。Flink在流引擎之上构建批处理，覆盖了本机迭代支持，托管内存和程序优化。本文档适用于Apache Flink 1.10版。

Flink优化器与源码解析系列--Flink相关基本概念

        ApacheFlink是一个框架和分布式处理引擎，用于在无限和有界数据流上进行有状态计算。Flink被设计成在所有常见的集群环境中运行，以内存速度和任何规模执行计算。

Flink优化器与源码解析系列--让Flink飞奔起来这篇文章就够啦(一)

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了BigDataplus专栏，为你提供了BigDataplus的相关文章，致力于帮助开发者快速成长与发展。

BigDataplus

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐