腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据解决方案

专栏作者

123

文章

162061

阅读量

36

订阅数

两万字从面试角度全面详解Kafka

kafka 编程算法 bash bash 指令 node.js

Kafka 是一个优秀的分布式消息中间件，许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。

大数据老哥

2022-04-07

5780

Kylin、Druid、ClickHouse该如何选择？

hbase TDSQL MySQL 版 node.js http 编程算法

Kylin、Druid、ClickHouse是目前主流的OLAP引擎，本文尝试从数据模型和索引结构两个角度，分析这几个引擎的核心技术，并做简单对比。在阅读本文之前希望能对Kylin、Druid、ClickHouse有所理解。

大数据老哥

2022-04-07

1K0

Flink经典的生产问题和解决方案~(建议收藏)

大数据 flink 编程算法 yarn node.js

一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚合落hbase，两个子任务接的是同一个Topic GroupId。上游Topic的 tps高峰达到5-6w。

大数据老哥

2022-04-07

3.4K0

数仓建设 | ODS、DWD、DWM等理论实战（强烈建议收藏~）

数据挖掘数据结构数据分析数据库 sql

数仓在建设过程中，对数据的组织管理上，不仅要根据业务进行纵向的主题域划分，还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析，希望对你有帮助。

大数据老哥

2022-04-07

1.9K0

全网最全系列 | Flink原理+知识点总结（4万字、41知识点，66张图）

flink 大数据数据结构文件存储数据处理

Flink四大基石分别是：Time （时间）、Window（窗口）、State （状态）、Checkpoint（检查点）。

大数据老哥

2022-04-07

1.6K0

万字长文带你了解ETL和数据建模～

数据库数据分析数据处理编程算法 sql

ETL是数据抽取（Extract）、转换（Transform）、加载（Load ）的简写，它是将OLTP系统中的数据经过抽取，并将不同数据源的数据进行转换、整合，得出一致性的数据，然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程

大数据老哥

2022-04-07

1.3K0

两万字SQL优化大全

sql 数据库云数据库 SQL Server

左边的client可以看成是客户端，客户端有很多，像我们经常你使用的CMD黑窗口，像我们经常用于学习的WorkBench，像企业经常使用的Navicat工具，它们都是一个客户端。右边的这一大堆都可以看成是Server(MySQL的服务端)，我们将Server在细分为sql层和存储引擎层。

大数据老哥

2022-04-07

7470

建设数据中台到底有什么用~~

数据安全数据处理大数据企业

说到数据中台，大家肯定都不陌生，自从它突然在大数据圈走红之后，如果聊天中不提到数据中台，就好像落伍了。那么到底什么是数据中台？数据中台有哪些应用价值？又是如何建设的呢？

大数据老哥

2022-04-07

1.2K0

二万字讲解HiveSQL技术原理、优化与面试

hive sql 数据库 mapreduce

编译 SQL 的任务是在上节中介绍的 COMPILER（编译器组件）中完成的。Hive将SQL转化为MapReduce任务，整个编译过程分为六个阶段：

大数据老哥

2022-04-07

8360

10 分钟彻底理解 Redis 的持久化和主从复制~

云数据库 Redis 云服务器数据库 sql

Redis作为一个键值对内存数据库(NoSQL)，数据都存储在内存当中，在处理客户端请求时，所有操作都在内存当中进行，如下所示：

大数据老哥

2022-04-07

3830

大厂数据中台建设（建议收藏）

api 大数据缓存微服务

快手是一家数据驱动的公司，数据扮演了非常重要的角色，而数据的生产加工主要依靠数据开发工程师，其工作内容会涉及多个方面：数据开发工程师则首先根据业务需求开发好高质量的数据，通常是结构化数据（数据表）；其次，开发稳定可靠的数据服务，并通过API方式交付给业务方使用。数据开发工程师有两个痛点：1）开发数据服务门槛高；2）重复开发数据服务。

大数据老哥

2022-04-07

1.1K0

万文Hive常用参数调优及优化（建议收藏）

linux 编程算法 hive mapreduce

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数

大数据老哥

2022-04-07

1.1K0

数仓链路保障体系与数据测试方法经验分享（好文收藏）

sql 数据库云数据库 SQL Server 腾讯云测试服务编程算法

有赞数据报表中心为商家提供了丰富的数据指标，包括30+页面，100+数据报表以及400+不同类型的数据指标，它们帮助商家更合理、科学地运营店铺，同时也直接提供分析决策方法供商家使用。并且，每天在跑的底层任务和涉及的数据表已经达到千级别。面对如此庞大的数据体系，作为测试如何制定质量保障策略呢？这篇文章将从：1.有赞数据链路、2.数据层测试、 3.应用层测试、 4.后续规划这四个方面展开。

大数据老哥

2022-04-07

1.3K0

面试中经常被问到的 50 个 SQL 题，必须拿下！

sql sql server 数据库

组函数: 去重 distinct() 统计总数sum() 计算个数count() 平均数avg() 最大值max() 最小数min()

大数据老哥

2022-04-07

3K0

2022年的五个大数据发展趋势

腾讯云数据仓库 TCHouse 云市场数据湖数据分析云计算

2021年，我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念（尽管仍处于早期阶段）与云中数据工具的爆炸性增长紧密相连。云计算带来了一种新的基础设施模式，它将帮助我们快速地、程序化地、按需地建立这些数据栈，使用像Kubernetes这样的云原生技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此，基础设施成为构建和实施现代数据栈的一个关键因素。

大数据老哥

2022-02-17

7100

Spark重点难点 | 万字详解Spark 性能调优

spark hive 数据分析

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

大数据老哥

2022-02-17

4810

这8种常见的SQL错误用法，你还在用吗？

云数据库 SQL Server sql 数据库 ide

MySQL在2016年仍然保持强劲的数据库流行度增长趋势。越来越多的客户将自己的应用建立在MySQL数据库之上，甚至是从Oracle迁移到MySQL上来。但也存在部分客户在使用MySQL数据库的过程中遇到一些比如响应时间慢，CPU打满等情况。阿里云RDS专家服务团队帮助云上客户解决过很多紧急问题。现将《ApsaraDB专家诊断报告》中出现的部分常见SQL问题总结如下，供大家参考。

大数据老哥

2022-02-17

3500

数仓建模 - 维度 vs 关系

存储大数据

数据管理一直在演进，从早期的电子表格、蛛网系统到架构式数据仓库。发展至今以维度建模和关系建模为主，而随着互联网的发展，数据从GB到PB的裱花，企业业务迭代更新亦是瞬息万变，对维度模型的偏爱渐渐有统一互联网数仓建模标准的趋势。

大数据老哥

2022-02-17

7180

万文Elasticsearch巧妙的架构详解

es 数据安全全文检索 lucene/solr

本书作为 Elastic Stack 指南，关注于 Elasticsearch 在日志和数据分析场景的应用，并不打算对底层的 Lucene 原理或者 Java 编程做详细的介绍，但是 Elasticsearch 层面上的一些架构设计，对我们做性能调优，故障处理，具有非常重要的影响。

大数据老哥

2022-02-17

5760

经验分享实时数仓实战命名规范和分层设计~~

实时数仓大数据数据库 sql windows

通常的命名方式是：ODS_应用系统名(或缩写)_数据库类型_(数据库名称可省略)_数据表名_加载方式（增量还是全量），表名不能太长，一般不超过30字。如：

大数据老哥

2022-02-17

2.9K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态