大数据架构

分享大数据架构相关内容,如Spark, Hadoop, Storm, Kafka, Flume

27 篇文章
30 人订阅

全部文章

Jason Guo

Spark 灰度发布在十万级节点上的成功实践 CI CD

目前主流的代码管理工具有,Github、Gitlab等。本文所介绍的内容中,所有代码均托管于私有的 Gitlab 中。

992
Jason Guo

Spark SQL / Catalyst 内部原理 与 RBO

从上图可见,无论是直接使用 SQL 语句还是使用 DataFrame,都会经过如下步骤转换成 DAG 对 RDD 的操作

432
Jason Guo

Spark CommitCoordinator 保证数据一致性

本文通过 Local mode 执行如下 Spark 程序详解 commit 原理

713
Jason Guo

Spark SQL 性能优化再进一步 CBO 基于代价的优化

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO,实现简单有效。它属于 LogicalPlan 的优化,所有优化均基于 Logical...

723
Jason Guo

Spark SQL 性能优化再进一步 CBO 基于代价的优化

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO,实现简单有效。它属于 LogicalPlan 的优化,所有优化均基于 Logical...

533
Jason Guo

Spark SQL / Catalyst 内部原理 与 RBO

从上图可见,无论是直接使用 SQL 语句还是使用 DataFrame,都会经过如下步骤转换成 DAG 对 RDD 的操作

1126
Jason Guo

Kafka设计解析(七)- Kafka Stream

1573
Jason Guo

机器学习(三) 关联规则R语言实战 Apriori

1854
Jason Guo

Java进阶(七)正确理解Thread Local的原理与适用场景

1274
Jason Guo

Kafka设计解析(六)- Kafka高性能架构之道

1246
Jason Guo

Kafka设计解析(八)- Exactly Once语义与事务机制原理

1273
Jason Guo

机器学习(二) 如何做到Kaggle排名前2%

2283
Jason Guo

Java进阶(二)当我们说线程安全时,到底在说什么

1954
Jason Guo

Java进阶(四)线程间通信剖析

1774
Jason Guo

Java进阶(五)Java I/O模型从BIO到NIO和Reactor模式

1415
Jason Guo

Java进阶(三)多线程开发关键技术

1524
Jason Guo

Java进阶(六)从ConcurrentHashMap的演进看Java多线程核心技术

1945
Jason Guo

Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

19510
Jason Guo

SQL优化(五) PostgreSQL (递归)CTE 通用表表达式

1716
Jason Guo

SQL优化(六) MVCC PostgreSQL实现事务和多版本并发控制的精华

1625

扫码关注云+社区