学习
实践
活动
工具
TVP
写文章

大数据流动

LV0
举报
发表了文章

聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。

大数据流动
ApacheHadoopSQL大数据编程算法
发表了文章

Datahub新版本0.9.1更新,列级别数据血缘功能发布!

近期Datahub进行了一次大的版本更新,从0.9版本以后Datahub也正式发布了列级别数据血缘的功能。

大数据流动
大数据编程算法
发表了文章

2022,数据科学与数据治理项目全纪录

2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。

大数据流动
数据湖大数据编程算法机器学习神经网络
发表了文章

企业级数据治理工作怎么开展?Datahub这样做

大数据发展到今天,扮演了越来越重要的作用。数据可以为各种组织和企业提供关键决策的支持,也可以通过数据分析帮助发现更多的有价值的东西,如商机、风险等等。

大数据流动
数据分析大数据
发表了文章

滴滴被罚,数据安全该怎么做?——大数据安全入门宝典

经查实,滴滴全球股份有限公司违反《网络安全法》《数据安全法》《个人信息保护法》的违法违规行为事实清楚、证据确凿、情节严重、性质恶劣。

大数据流动
Kerberos数据安全数据库数据处理
发表了文章

一、大数据技术

本文为第一课(开篇)。在后续我也将按照自己积累的经验和学习群大家的讨论内容对后续的内容进行不断的整理。也感谢所有学习群群友的帮助,路漫漫,在数据治理的道路上让我...

大数据流动
大数据编程算法
发表了文章

数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis

开源数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis。

大数据流动
Apache数据分析https网络安全大数据
发表了文章

高颜值开源数据可视化工具——Superset 2.0正式发布!

​ Superset终于迎来了又一个重大的版本更新。使用superset已经近三年的时间了,其为我们提供了数据可视化的解决方案。也成为了最好的商用BI的替代方案...

大数据流动
SQL数据库
发表了文章

万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南

本文所选择的Python的版本为3.8.3,Docker版本为20.10.0,都可以很好的支持Datahub的安装。Datahub下载的最新0.8.40版本,这...

大数据流动
虚拟化CentOSLinuxPythonDocker
发表了文章

DTCC是什么?

​ 关注DTCC有几年了,还是在当中学到了很多的干货。今年我的大部分时间也都是投入在了数据治理的学习和数据治理工具的调研中。也非常渴望有这种机会去了解一下国内...

大数据流动
大数据数据库SQL数据湖
发表了文章

在线就能用的 SQL 练习平台(附SQL学习文档)

但是不管怎么说,有些硬技能还是需要的,比如做大数据来说,如果只是了解各种组件的使用,是远远不够的。真正做过大数据研发的肯定是需要写SQL,写各种算子的。对于组件...

大数据流动
SQL大数据数据分析
发表了文章

美团外卖实时数仓方案整理

实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是:一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配...

大数据流动
云计算实时数仓Flink大数据
发表了文章

前言

​ 每个组织都有自己的数据管理方式。有的公司准备自研并制定了长期计划,有的公司使用最新的数据管理工具和技术,有的公司则是为了满足监管机构的要求。这几种的思路完...

大数据流动
发表了文章

从理论到工程实践——用户画像入门宝典

​ 用户画像是大数据顶层应用中最重要的一环,搭建一套适合本公司体系的用户画像尤为重要。但是,用户画像的资料往往理论居多,实践少,更少有工程化的实战案例。

大数据流动
数据结构编程算法大数据FlinkHive
发表了文章

一站式Flink&Spark平台解决方案——StreamX

大家好,我是独孤风。今天为大家推荐的是一个完全开源的项目StreamX。该项目的发起者Ben也是我的好朋友。

大数据流动
FlinkKubernetes大数据开源JAR
发表了文章

学习大数据可以考哪些证书(附资料)

最近总有同学咨询大数据专业可以考的证书的问题。目前来看,大数据面试更注重的是工作经验,以及对大数据专业知识的掌握程度。大数据是一门特别注重实践的学科,所以还是建...

大数据流动
大数据https开源
发表了文章

数据治理之元数据管理的利器——Atlas入门宝典

随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是...

大数据流动
数据库大数据SQL编程算法spark
发表了文章

万字长文|大数据学前准备之Linux入门笔记(附资料)

对于大数据学习而言,Linux运维可以说是必备的技能。可以不研究的过于高深,但是基本的操作和使用一定要熟练。Linux的学习需要大量的实践,本文从linux的基...

大数据流动
yumCentOSLinux文件存储
发表了文章

万字长文|Hadoop入门笔记(附资料)

大数据迅速发展,但是Hadoop的基础地位一直没有改变。理解并掌握Hadoop相关知识对于之后的相关组件学习有着地基的作用。本文整理了Hadoop基础理论知识与...

大数据流动
Hive分布式Hadoop任务调度大数据
发表了文章

非结构化数据怎么存?——开源对象存储方案介绍

过去的相当长的一段时间里,商用对象存储占据了市场上的大量的份额。国外的Amazon S3,国内的阿里云OSS都成为了大多数公司的选择。但是构建一个企业级的数据湖...

大数据流动
存储Hadoop对象存储数据湖数据库

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券