首页
学习
活动
专区
工具
TVP
发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享
专栏作者
166
文章
188915
阅读量
42
订阅数
深入讲解四种数仓建模理论方法
数据仓库的建设的最重要的核心核心之一就是数仓模型的设计和构建,这个决定了数仓的复用和性能,本文将介绍四种建模的理论:维度建模、关系建模、Data Vault建模、Anchor模型建模,文后也介绍几种常见的数仓建模工具。
大数据学习与分享
2024-03-27
1470
一文掌握ClickHouse
ClickHouse 是Yandex开源的一个用于实时数据分析的基于列存储的数据库,其处理数据的速度比传统方法快100-1000 倍。
大数据学习与分享
2024-03-20
690
Apache Doris取代ClickHouse、MySQL、Presto和HBase
用户从 Lambda 架构入手,将数据管道拆分为批处理链路和流处理链路。对于实时数据流,他们应用 Flink CDC ;对于批量导入,他们结合了 Sqoop、Python 和 DataX 来构建自己的数据集成工具,名为 Hisen。
大数据学习与分享
2024-01-26
4050
Flink-CDC同步MySQL到Hive实践
CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
大数据学习与分享
2023-11-30
3220
元数据管理与数据血缘
什么是元数据?元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。
大数据学习与分享
2023-11-17
3490
主数据与数据中台
初次接触数据治理工作的朋友可能都会遇到主数据和数据中台这两个概念,经常有粉丝朋友问我二者有什么区别。
大数据学习与分享
2023-10-25
3310
数据仓库建设经验总结
导读:本案例描述的数据仓库建设问题和解决经验,在企业数仓初期建设时多少都会遇到,对制定数仓初期建设方案有一定的参考意义,推荐收藏。
大数据学习与分享
2023-10-23
3350
大数据中心建设方案
大数据学习与分享
2023-09-18
1930
Flink exactly-once系列实践之KafkaToKafka
注意事项: 这里使用的是本地FSstateBackend,注意你的路径的设置,以hdfs://或者file://为地址标识符,否则Flink的文件系统将无法识别。
大数据学习与分享
2023-09-18
2010
信息化和数字化的区别
信息化是对企业已形成的相关信息的记录和各个环节业务的结果与管控;数字化则是让业务和技术真正产生交互,改变传统的商业运作模式。
大数据学习与分享
2023-09-18
1670
大数据开发流程及规范
在大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会降低研发效率,增加成本与风险。
大数据学习与分享
2023-09-18
5190
大数据架构平台架构设计和技术分析
本文首先介绍了大数据架构平台的组件架构,让读者了解大数据平台的全貌,然后分别介绍数据集成、存储与计算、分布式调度、查询分析等方面的观点,最后是专家眼里大数据平台架构的发展趋势。
大数据学习与分享
2023-09-18
8130
数据治理体系建设与数据资产规划
企业需要转变对数据资产价值的认知,在企业运营及管理中建立数据资产价值体系。在数字化业务领域中,需要考虑将数据权属定义至指定的部门及岗位,将数据资产的价值纳入到整体运营及考核中,真正做到将数字资产的价值嵌入到每一个数字化流程。
大数据学习与分享
2023-09-06
5870
Flink任务提交问题分析和解决
最近在提交flink项目example下WordCount.jar批处理任务时遇到以下问题:
大数据学习与分享
2023-09-06
6640
数据建模-维度建模-维度设计
在Kimball维度建模中,通常将度量称为“事实”,将环境描述为“维度”,维度是用于分析事实所需要的多样环境。维度和维度属性是维度的两个核心概念,如何构建维度的属性是维度设计中需要关注的。维度具有层次结构,维度中的一些描述属性以层次方式或一对多方式相互关联。比如商品维度,有卖家、类目、品牌等父层次。对于层次结构,是采用雪花模式进行规范化处理还是将维度的属性层次合并到单个维度中进行反规范化处理,需要进行取舍。
大数据学习与分享
2023-09-06
3330
Hive静态分区、动态分区、多重分区全解析
现有6份数据文件,分别记录了《王者荣耀》中6种位置的英雄相关信息。现要求通过建立一张表t_all_hero,把6份文件同时映射加载。
大数据学习与分享
2023-02-26
1.8K0
数据湖架构落地实战
与传统的数据架构要求整合、面向主题、固定分层等特点不同,数据湖为企业全员独立参与数据运营和应用创新提供了极大的灵活性,并可优先确保数据的低时延、高质量和高可用,给运营商数据架构优化提供了很好的参考思路。
大数据学习与分享
2023-02-26
4990
数据安全治理解决方案
免责声明:本公众号所发布的文章为本公众号原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接联系后台,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。
大数据学习与分享
2023-02-26
1.1K0
实时数仓架构的演进与对比
1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。
大数据学习与分享
2023-02-26
8590
为什么实时数仓不可代替?
大数据时代中,数据仓库解决了商业智能分析过程中的数据管理问题,但是存在烟囱式、冗余高的弊端
大数据学习与分享
2023-02-26
4660
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档