大数据架构-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据架构

分享大数据架构相关内容，如Spark, Hadoop, Storm, Kafka, Flume

专栏成员

28

文章

54638

阅读量

52

订阅数

Adaptive Execution 让 Spark SQL 更高效更智能

前面《Spark SQL / Catalyst 内部原理与 RBO》与《Spark SQL 性能优化再进一步 CBO 基于代价的优化》介绍的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。但是

2018-11-20

9770

Spark SQL / Catalyst 内部原理与 RBO

从上图可见，无论是直接使用 SQL 语句还是使用 DataFrame，都会经过如下步骤转换成 DAG 对 RDD 的操作

2018-10-10

8290

Spark SQL 性能优化再进一步 CBO 基于代价的优化

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO，实现简单有效。它属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。

2018-10-10

8960

Spark SQL 性能优化再进一步 CBO 基于代价的优化

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO，实现简单有效。它属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。

2018-10-09

1.2K0

Spark SQL / Catalyst 内部原理与 RBO

从上图可见，无论是直接使用 SQL 语句还是使用 DataFrame，都会经过如下步骤转换成 DAG 对 RDD 的操作

2018-09-11

1.4K0

Java进阶（七）正确理解Thread Local的原理与适用场景

ThreadLocal解决什么问题由于 ThreadLocal 支持范型，如 ThreadLocal< StringBuilder >，为表述方便，后文用变量代表 ThreadLocal 本身，而用实例代表具体类型（如 StringBuidler ）的实例。不恰当的理解写这篇文章的一个原因在于，网上很多博客关于 ThreadLocal 的适用场景以及解决的问题，描述的并不清楚，甚至是错的。下面是常见的对于 ThreadLocal的介绍 ThreadLocal为解决多线程程序的并发问题提供了

2018-06-20

9561

Kafka设计解析（六）- Kafka高性能架构之道

摘要上一篇文章《Kafka设计解析（五）- Kafka性能测试方法及Benchmark报告》从测试角度说明了Kafka的性能。本文从宏观架构层面和具体实现层面分析了Kafka如何实现高性能。宏观架构层面利用Partition实现并行处理 Partition提供并行处理的能力 Kafka是一个Pub-Sub的消息系统，无论是发布还是订阅，都须指定Topic。如《Kafka设计解析（一）- Kafka背景及架构介绍》一文所述，Topic只是一个逻辑的概念。每个Topic都包含一个或多个Partition

2018-06-20

8500

Kafka设计解析（八）- Exactly Once语义与事务机制原理

写在前面的话本文所有Kafka原理性的描述除特殊说明外均基于Kafka 1.0.0版本。为什么要提供事务机制 Kafka事务机制的实现主要是为了支持 Exactly Once即正好一次语义操作的原子性有状态操作的可恢复性 Exactly Once 《Kafka背景及架构介绍》一文中有说明Kafka在0.11.0.0之前的版本中只支持At Least Once和At Most Once语义，尚不支持Exactly Once语义。但是在很多要求严格的场景下，如使用Kafka处理交易数据，Exactl

2018-06-20

2.2K0

机器学习（二）如何做到Kaggle排名前2%

摘要本文详述了如何通过数据预览，探索式数据分析，缺失数据填补，删除关联特征以及派生新特征等方法，在Kaggle的Titanic幸存预测这一分类问题竞赛中获得前2%排名的具体方法。竞赛内容介绍 Titanic幸存预测是Kaggle上参赛人数最多的竞赛之一。它要求参赛选手通过训练数据集分析出什么类型的人更可能幸存，并预测出测试数据集中的所有乘客是否生还。该项目是一个二元分类问题如何取得排名前2%的成绩加载数据在加载数据之前，先通过如下代码加载之后会用到的所有R库 1234567891011121

2018-06-20

1K0

Java进阶（四）线程间通信剖析

CountDownLatch CountDownLatch适用场景 Java多线程编程中经常会碰到这样一种场景——某个线程需要等待一个或多个线程操作结束（或达到某种状态）才开始执行。比如开发一个并发测试工具时，主线程需要等到所有测试线程均执行完成再开始统计总共耗费的时间，此时可以通过CountDownLatch轻松实现。 CountDownLatch实例 12345678910111213141516171819202122232425262728 package com.test.thread;impo

2018-06-19

5170

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

原创文章，转载请务必将下面这段话置于文章开头处。本文转发自技术世界，原文链接 http://www.jasongj.com/spark/skew/ 摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据

2018-06-11

2.1K0

UML(一) 类图详解

原创文章，转载请务必将下面这段话置于文章开头处（保留超链接）。本文转发自技术世界，原文链接 http://www.jasongj.com/uml/class_diagram/ UML类图 UML类图介绍在UML 2.*的13种图形中，类图是使用频率最高的UML图之一。类图用于描述系统中所包含的类以及它们之间的相互关系，帮助开发人员理解系统，它是系统分析和设计阶段的重要产物，也是系统编码和测试的重要模型依据。类的UML图示在UML类图中，类使用包含类名、属性和方法且带有分隔线的长方形来表示。如一

2018-06-11

21.6K0

Java进阶（四）线程间通信剖析

Java多线程编程中经常会碰到这样一种场景——某个线程需要等待一个或多个线程操作结束（或达到某种状态）才开始执行。比如开发一个并发测试工具时，主线程需要等到所有测试线程均执行完成再开始统计总共耗费的时间，此时可以通过CountDownLatch轻松实现。

2018-05-16

9936

Java进阶（三）多线程开发关键技术

其实这个问题应该这么问——sleep和wait有什么相同点。因为这两个方法除了都能让当前线程暂停执行完，几乎没有其它相同点。

2018-05-11

9041

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态