学习
实践
活动
工具
TVP
写文章

大数据老哥

LV0
举报
发表了文章

两万字从面试角度全面详解Kafka

Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。

大数据老哥
Kafka编程算法BashBash 指令Node.js
发表了文章

Kylin、Druid、ClickHouse该如何选择?

Kylin、Druid、ClickHouse是目前主流的OLAP引擎,本文尝试从数据模型和索引结构两个角度,分析这几个引擎的核心技术,并做简单对比。在阅读本文之...

大数据老哥
HBaseTDSQL MySQL 版Node.jsHTTP编程算法
发表了文章

Flink经典的生产问题和解决方案~(建议收藏)

一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic Group...

大数据老哥
大数据Flink编程算法YarnNode.js
发表了文章

数仓建设 | ODS、DWD、DWM等理论实战(强烈建议收藏~)

数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析,希望对你...

大数据老哥
数据挖掘数据结构数据分析数据库SQL
发表了文章

全网最全系列 | Flink原理+知识点总结(4万字、41知识点,66张图)

Flink四大基石分别是:Time (时间)、Window(窗口)、State (状态)、Checkpoint(检查点)。

大数据老哥
Flink大数据数据结构文件存储数据处理
发表了文章

万字长文带你了解ETL和数据建模~

ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合...

大数据老哥
数据库数据分析数据处理编程算法SQL
发表了文章

两万字SQL优化大全

左边的client可以看成是客户端,客户端有很多,像我们经常你使用的CMD黑窗口,像我们经常用于学习的WorkBench,像企业经常使用的Navicat工具,它...

大数据老哥
SQL数据库云数据库 SQL Server
发表了文章

建设数据中台到底有什么用~~

说到数据中台,大家肯定都不陌生,自从它突然在大数据圈走红之后,如果聊天中不提到数据中台,就好像落伍了。那么到底什么是数据中台?数据中台有哪些应用价值?又是如何建...

大数据老哥
数据安全数据处理大数据企业
发表了文章

二万字讲解HiveSQL技术原理、优化与面试

编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段:

大数据老哥
HiveSQL数据库MapReduce
发表了文章

10 分钟彻底理解 Redis 的持久化和主从复制~

Redis作为一个键值对内存数据库(NoSQL),数据都存储在内存当中,在处理客户端请求时,所有操作都在内存当中进行,如下所示:

大数据老哥
云数据库 Redis云服务器数据库SQL
发表了文章

大厂数据中台建设(建议收藏)

快手是一家数据驱动的公司,数据扮演了非常重要的角色,而数据的生产加工主要依靠数据开发工程师,其工作内容会涉及多个方面:数据开发工程师则首先根据业务需求开发好高质...

大数据老哥
API大数据缓存微服务微服务架构
发表了文章

万文Hive常用参数调优及优化(建议收藏)

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置...

大数据老哥
Linux编程算法HiveMapReduce
发表了文章

数仓链路保障体系与数据测试方法经验分享(好文收藏)

有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理、科学地运营店铺,同时也直接提供分...

大数据老哥
SQL数据库云数据库 SQL Server腾讯云测试服务编程算法
发表了文章

面试中经常被问到的 50 个 SQL 题,必须拿下!

组函数: 去重 distinct() 统计总数sum() 计算个数count() 平均数avg() 最大值max() 最小数min()

大数据老哥
SQLSQL Server数据库
发表了文章

2022年的五个大数据发展趋势

2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概...

大数据老哥
云数据仓库云市场数据湖数据分析云计算
发表了文章

Spark重点难点 | 万字详解Spark 性能调优

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾...

大数据老哥
sparkHive数据分析
发表了文章

这8种常见的SQL错误用法,你还在用吗?

MySQL在2016年仍然保持强劲的数据库流行度增长趋势。越来越多的客户将自己的应用建立在MySQL数据库之上,甚至是从Oracle迁移到MySQL上来。但也存...

大数据老哥
云数据库 SQL ServerSQL数据库IDE
发表了文章

数仓建模 - 维度 vs 关系

数据管理一直在演进,从早期的电子表格、蛛网系统到架构式数据仓库。发展至今以维度建模和关系建模为主,而随着互联网的发展,数据从GB到PB的裱花,...

大数据老哥
存储大数据
发表了文章

万文Elasticsearch巧妙的架构详解

本书作为 Elastic Stack 指南,关注于 Elasticsearch 在日志和数据分析场景的应用,并不打算对底层的 Lucene 原理或者 Java ...

大数据老哥
ES数据安全全文检索Lucene/Solr
发表了文章

经验分享实时数仓实战命名规范和分层设计~~

通常的命名方式是:ODS_应用系统名(或缩写)_数据库类型_(数据库名称可省略)_数据表名_加载方式(增量还是全量),表名不能太长,一般不超过30字。如:

大数据老哥
实时数仓大数据数据库SQLWindows

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券