大数据解决方案

123 篇文章
40.1K 次阅读
27 人订阅

全部文章

大数据老哥

两万字从面试角度全面详解Kafka

Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。

7720
大数据老哥

Kylin、Druid、ClickHouse该如何选择?

Kylin、Druid、ClickHouse是目前主流的OLAP引擎,本文尝试从数据模型和索引结构两个角度,分析这几个引擎的核心技术,并做简单对比。在阅读本文之...

6010
大数据老哥

Flink经典的生产问题和解决方案~(建议收藏)

一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic Group...

11110
大数据老哥

数仓建设 | ODS、DWD、DWM等理论实战(强烈建议收藏~)

数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析,希望对你...

13510
大数据老哥

全网最全系列 | Flink原理+知识点总结(4万字、41知识点,66张图)

Flink四大基石分别是:Time (时间)、Window(窗口)、State (状态)、Checkpoint(检查点)。

9820
大数据老哥

万字长文带你了解ETL和数据建模~

ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合...

7010
大数据老哥

两万字SQL优化大全

左边的client可以看成是客户端,客户端有很多,像我们经常你使用的CMD黑窗口,像我们经常用于学习的WorkBench,像企业经常使用的Navicat工具,它...

6310
大数据老哥

建设数据中台到底有什么用~~

说到数据中台,大家肯定都不陌生,自从它突然在大数据圈走红之后,如果聊天中不提到数据中台,就好像落伍了。那么到底什么是数据中台?数据中台有哪些应用价值?又是如何建...

10540
大数据老哥

二万字讲解HiveSQL技术原理、优化与面试

编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段:

7810
大数据老哥

10 分钟彻底理解 Redis 的持久化和主从复制~

Redis作为一个键值对内存数据库(NoSQL),数据都存储在内存当中,在处理客户端请求时,所有操作都在内存当中进行,如下所示:

9040
大数据老哥

大厂数据中台建设(建议收藏)

快手是一家数据驱动的公司,数据扮演了非常重要的角色,而数据的生产加工主要依靠数据开发工程师,其工作内容会涉及多个方面:数据开发工程师则首先根据业务需求开发好高质...

13510
大数据老哥

万文Hive常用参数调优及优化(建议收藏)

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置...

6520
大数据老哥

数仓链路保障体系与数据测试方法经验分享(好文收藏)

有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理、科学地运营店铺,同时也直接提供分...

9910
大数据老哥

面试中经常被问到的 50 个 SQL 题,必须拿下!

组函数: 去重 distinct() 统计总数sum() 计算个数count() 平均数avg() 最大值max() 最小数min()

9030
大数据老哥

2022年的五个大数据发展趋势

2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概...

13220
大数据老哥

Spark重点难点 | 万字详解Spark 性能调优

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾...

8320
大数据老哥

这8种常见的SQL错误用法,你还在用吗?

MySQL在2016年仍然保持强劲的数据库流行度增长趋势。越来越多的客户将自己的应用建立在MySQL数据库之上,甚至是从Oracle迁移到MySQL上来。但也存...

5610
大数据老哥

数仓建模 - 维度 vs 关系

数据管理一直在演进,从早期的电子表格、蛛网系统到架构式数据仓库。发展至今以维度建模和关系建模为主,而随着互联网的发展,数据从GB到PB的裱花,...

8530
大数据老哥

万文Elasticsearch巧妙的架构详解

本书作为 Elastic Stack 指南,关注于 Elasticsearch 在日志和数据分析场景的应用,并不打算对底层的 Lucene 原理或者 Java ...

10820
大数据老哥

经验分享实时数仓实战命名规范和分层设计~~

通常的命名方式是:ODS_应用系统名(或缩写)_数据库类型_(数据库名称可省略)_数据表名_加载方式(增量还是全量),表名不能太长,一般不超过30字。如:

23230

扫码关注云+社区

领取腾讯云代金券