大数据老哥

LV0
发表了文章

HBase数据迁移到Kafka?这种逆向操作你震惊了吗!

在实际的应用场景中,数据存储在HBase集群中,但是由于一些特殊的原因,需要将数据从HBase迁移到Kafka。正常情况下,一般都是源数据到K...

大数据老哥
发表了文章

大数据之数据仓库面试题

首先,用于支持决策,面向分析型数据处理;其次,对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

大数据老哥
发表了文章

万字全面总结 | HiveSQL优化方法

Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、...

大数据老哥
发表了文章

做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台

围绕中台的争议非常多,但是往往争议的原因是连中台这个概念都完全没有达成共识,可以说是毫无意义的争吵。在 12 月 20 日由极客邦科技举办的 ...

大数据老哥
发表了文章

企业大数据平台仓库架构建设思路

本文作者主要从总体思路、模型设计、数据架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。

大数据老哥
发表了文章

ETL和数据建模

ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合...

大数据老哥
发表了文章

干货 | 大厂与小厂的数仓建设区别

前段时间给大家分享了阿里的数仓建设《阿里数据仓库研发规范》,本文主要讲解下创业型公司是如何建设数仓的。本文将重点探讨数据处理层中数据仓库的建设,...

大数据老哥
发表了文章

万文讲解知乎实时数仓架构演进

"数据智能" (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必...

大数据老哥
发表了文章

ClickHouse深度解析,收藏这一篇就够了~

五、核心概念 5.1.表引擎(Engine) 表引擎决定了数据在文件系统中的存储方式,常用的也是官方推荐的存储引擎是MergeTree系列...

大数据老哥
发表了文章

Spark性能优化和故障处理

Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

大数据老哥
发表了文章

基于Flink+ClickHouse构建实时数仓

Flink和ClickHouse分别是实时计算和(近实时)OLAP领域的翘楚,也是近些年非常火爆的开源框架,很多大厂都在将两者结合使用来构建各种用途的实时平台,...

大数据老哥
发表了文章

彻底搞清 Flink 中的 Window 机制

在流处理应用中,数据是连续不断的,有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。

大数据老哥
发表了文章

Kafka 3.0发布,这几个新特性非常值得关注!

Apache Kafka 是一个分布式开源流平台,被广泛应用于各大互联网公司。Kafka 设计之初被用于消息队列,自 2011 年由 LinkedIn 开源以来...

大数据老哥
发表了文章

Flink企业级优化全面总结(3万字长文,15张图)

Flink性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再...

大数据老哥
发表了文章

实时离线一体化技术架构(万字,15张图)

基于TB级的在线数据,支持缴费帐单明细在线查询。大家都知道,像银行帐单流水一样,查几年的流水是常有的事。

大数据老哥
发表了文章

大数据框架发展史

这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景...

大数据老哥
发表了文章

2万字 | Kafka知识体系保姆级教程,附详细解析,赶紧收藏吧!!

消息队列,英文名:Message Queue,经常缩写为MQ。从字面上来理解,消息队列是一种用来存储消息的队列 。来看一下下面的代码

大数据老哥
发表了文章

万文讲解Hive 中的排序和开窗函数

排序操作是一个比较常见的操作,尤其是在数据分析的时候,我们往往需要对数据进行排序,hive 中和排序相关的有四个关键字,今天我们就看一下,它们都是什么作用。

大数据老哥
发表了文章

Spark调优 | 不可避免的 Join 优化

在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQL,一种是直接写sql语句,这个需要有元数据库支持,...

大数据老哥
发表了文章

一文介绍hive与Impala的对比~

Impala是由Cloudera公司开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级大数据,在性能上比Hive高出...

大数据老哥

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券