腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据架构

分享大数据架构相关内容，如Spark, Hadoop, Storm, Kafka, Flume

专栏作者

28

文章

51693

阅读量

52

订阅数

Adaptive Execution 让 Spark SQL 更高效更智能

前面《Spark SQL / Catalyst 内部原理与 RBO》与《Spark SQL 性能优化再进一步 CBO 基于代价的优化》介绍的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。但是

2018-11-20

9090

超大规模 Spark 集群灰度发布 CI CD

编程算法 spark jenkins git 单元测试

目前主流的代码管理工具有，Github、Gitlab等。本文所介绍的内容中，所有代码均托管于私有的 Gitlab 中。

2018-10-11

1.4K0

Spark SQL / Catalyst 内部原理与 RBO

从上图可见，无论是直接使用 SQL 语句还是使用 DataFrame，都会经过如下步骤转换成 DAG 对 RDD 的操作

2018-10-10

7980

Spark CommitCoordinator 保证数据一致性

spark nat http hadoop json

本文通过 Local mode 执行如下 Spark 程序详解 commit 原理

2018-10-10

1.2K1

Spark SQL 性能优化再进一步 CBO 基于代价的优化

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO，实现简单有效。它属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。

2018-10-10

8660

Spark SQL 性能优化再进一步 CBO 基于代价的优化

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO，实现简单有效。它属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。

2018-10-09

1.1K0

Spark SQL / Catalyst 内部原理与 RBO

从上图可见，无论是直接使用 SQL 语句还是使用 DataFrame，都会经过如下步骤转换成 DAG 对 RDD 的操作

2018-09-11

1.3K0

Kafka设计解析（七）- Kafka Stream

Kafka Stream背景 Kafka Stream是什么 Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。 Kafka Stream的特点如下： Kafka Stream提供了一个非常简单而轻量的Library，它可以非常方便地嵌入任意Java应用中，也可以任意方式打包和部署除了Kafka外，无任何外部依赖充分利用Kafka分区机制实现水平扩展和顺序性保证通过可容错的state store实

2018-06-20

2.2K2

机器学习（三）关联规则R语言实战 Apriori

机器学习 r 语言数据分析编程算法无监督学习

关联规则背景关联规则来源上个世纪，美国连锁超市活尔玛通过大量的数据分析发现了一个非常有趣的现象：尿布与啤酒这两种看起来风马牛不相及的商品销售数据曲线非常相似，并且尿布与啤酒经常被同时购买，也即购买尿布的顾客一般也同时购买了啤酒。于是超市将尿布与啤酒摆在一起，这一举措使得尿布和啤酒的销量大幅增加。原来，美国的妇女通常全职在家照顾孩子，并且她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布，而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。注：此案例很精典，切勿盲目模仿案例本身，而应了解其背后原理。它发生

2018-06-20

2.3K0

Java进阶（七）正确理解Thread Local的原理与适用场景

ThreadLocal解决什么问题由于 ThreadLocal 支持范型，如 ThreadLocal< StringBuilder >，为表述方便，后文用变量代表 ThreadLocal 本身，而用实例代表具体类型（如 StringBuidler ）的实例。不恰当的理解写这篇文章的一个原因在于，网上很多博客关于 ThreadLocal 的适用场景以及解决的问题，描述的并不清楚，甚至是错的。下面是常见的对于 ThreadLocal的介绍 ThreadLocal为解决多线程程序的并发问题提供了

2018-06-20

9091

Kafka设计解析（六）- Kafka高性能架构之道

摘要上一篇文章《Kafka设计解析（五）- Kafka性能测试方法及Benchmark报告》从测试角度说明了Kafka的性能。本文从宏观架构层面和具体实现层面分析了Kafka如何实现高性能。宏观架构层面利用Partition实现并行处理 Partition提供并行处理的能力 Kafka是一个Pub-Sub的消息系统，无论是发布还是订阅，都须指定Topic。如《Kafka设计解析（一）- Kafka背景及架构介绍》一文所述，Topic只是一个逻辑的概念。每个Topic都包含一个或多个Partition

2018-06-20

8090

Kafka设计解析（八）- Exactly Once语义与事务机制原理

写在前面的话本文所有Kafka原理性的描述除特殊说明外均基于Kafka 1.0.0版本。为什么要提供事务机制 Kafka事务机制的实现主要是为了支持 Exactly Once即正好一次语义操作的原子性有状态操作的可恢复性 Exactly Once 《Kafka背景及架构介绍》一文中有说明Kafka在0.11.0.0之前的版本中只支持At Least Once和At Most Once语义，尚不支持Exactly Once语义。但是在很多要求严格的场景下，如使用Kafka处理交易数据，Exactl

2018-06-20

2.1K0

机器学习（二）如何做到Kaggle排名前2%

摘要本文详述了如何通过数据预览，探索式数据分析，缺失数据填补，删除关联特征以及派生新特征等方法，在Kaggle的Titanic幸存预测这一分类问题竞赛中获得前2%排名的具体方法。竞赛内容介绍 Titanic幸存预测是Kaggle上参赛人数最多的竞赛之一。它要求参赛选手通过训练数据集分析出什么类型的人更可能幸存，并预测出测试数据集中的所有乘客是否生还。该项目是一个二元分类问题如何取得排名前2%的成绩加载数据在加载数据之前，先通过如下代码加载之后会用到的所有R库 1234567891011121

2018-06-20

9770

Java进阶（二）当我们说线程安全时，到底在说什么

java 安全数据库

多线程编程中的三个核心概念原子性这一点，跟数据库事务的原子性概念差不多，即一个操作（有可能包含有多个子操作）要么全部执行（生效），要么全部都不执行（都不生效）。关于原子性，一个非常经典的例子就是银行转账问题：比如A和B同时向C转账10万元。如果转账操作不具有原子性，A在向C转账时，读取了C的余额为20万，然后加上转账的10万，计算出此时应该有30万，但还未来及将30万写回C的账户，此时B的转账请求过来了，B发现C的余额为20万，然后将其加10万并写回。然后A的转账操作继续——将30万写回C的余额。这

2018-06-19

5610

Java进阶（四）线程间通信剖析

CountDownLatch CountDownLatch适用场景 Java多线程编程中经常会碰到这样一种场景——某个线程需要等待一个或多个线程操作结束（或达到某种状态）才开始执行。比如开发一个并发测试工具时，主线程需要等到所有测试线程均执行完成再开始统计总共耗费的时间，此时可以通过CountDownLatch轻松实现。 CountDownLatch实例 12345678910111213141516171819202122232425262728 package com.test.thread;impo

2018-06-19

4890

Java进阶（五）Java I/O模型从BIO到NIO和Reactor模式

java react unix

Java I/O模型同步 vs. 异步同步I/O　每个请求必须逐个地被处理，一个请求的处理会导致整个流程的暂时等待，这些事件无法并发地执行。用户线程发起I/O请求后需要等待或者轮询内核I/O操作完成后才能继续执行。异步I/O　多个请求可以并发地执行，一个请求或者任务的执行不会导致整个流程的暂时等待。用户线程发起I/O请求后仍然继续执行，当内核I/O操作完成后会通知用户线程，或者调用用户线程注册的回调函数。阻塞 vs. 非阻塞阻塞　某个请求发出后，由于该请求操作需要的条件不满足，请求操作一直阻塞，

2018-06-19

6580

Java进阶（三）多线程开发关键技术

sleep和wait到底什么区别其实这个问题应该这么问——sleep和wait有什么相同点。因为这两个方法除了都能让当前线程暂停执行完，几乎没有其它相同点。 wait方法是Object类的方法，这意味着所有的Java类都可以调用该方法。sleep方法是Thread类的静态方法。 wait是在当前线程持有wait对象锁的情况下，暂时放弃锁，并让出CPU资源，并积极等待其它线程调用同一对象的notify或者notifyAll方法。注意，即使只有一个线程在等待，并且有其它线程调用了notify或者notify

2018-06-19

4050

Java进阶（六）从ConcurrentHashMap的演进看Java多线程核心技术

java hashmap 安全人工智能

原创文章，转载请务必将下面这段话置于文章开头处（保留超链接）。本文转发自技术世界，原文链接 http://www.jasongj.com/java/concurrenthashmap/ 线程不安全的HashMap 众所周知，HashMap是非线程安全的。而HashMap的线程不安全主要体现在resize时的死循环及使用迭代器时的fast-fail上。注：本章的代码均基于JDK 1.7.0_67 HashMap工作原理 HashMap数据结构常用的底层数据结构主要有数组和链表。数组存储区间连续，占

2018-06-14

6820

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

原创文章，转载请务必将下面这段话置于文章开头处。本文转发自技术世界，原文链接 http://www.jasongj.com/spark/skew/ 摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据

2018-06-11

2K0

SQL优化（五） PostgreSQL （递归）CTE 通用表表达式

sql postgresql express

原创文章，转载请务必将下面这段话置于文章开头处（保留超链接）。本文转发自技术世界，原文链接 http://www.jasongj.com/sql/cte/ CTE or WITH WITH语句通常被称为通用表表达式（Common Table Expressions）或者CTEs。 WITH语句作为一个辅助语句依附于主语句，WITH语句和主语句都可以是SELECT，INSERT，UPDATE，DELETE中的任何一种语句。例讲CTE WITH语句最基本的功能是把复杂查询语句拆分成多个简单的部分，如下

2018-06-11

2.4K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态