#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

Spark UDF1 返回复杂结构

mikeLiu

由java开发UDF1需指定返回值的DataType,spark-2.3.1暂不支持Array、Map这些复杂结构。因此,需要自定义DataType,满足定制化...

11730

【赵强老师】什么是Spark SQL?

赵强老师

京东大学 · 大数据学院院长 (已认证)

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

12970

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

大数据学习与分享

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

11900

【赵强老师】Flink的Watermark机制(基于Flink 1.11.0实现)

赵强老师

京东大学 · 大数据学院院长 (已认证)

在使用eventTime的时候如何处理乱序数据?我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下...

22740

Spark速度比MapReduce快,不仅是内存计算

大数据技术架构

作为Hadoop的分布式计算框架,MapReduce扮演着分布式计算的任务,适用于离线批计算任务。Spark本身不具备存储数据功能,通常基于HDFS。我们经常会...

12820

Executor源码分析

幽鸿

腾讯 · 高级工程师 (已认证)

Executor源码的最主要代码是TaskRunner,TaskRunner是一个多线程,首先看其runner方法:

10440

TaskScheduler源码解读

幽鸿

腾讯 · 高级工程师 (已认证)

这里调用了taskScheduler接口,我们打开TaskScheduler trait,trait在scala里就是接口,在IDEA中查看实现的类,使用快捷键...

11420

DAGScheduler源码解读2-task创建

幽鸿

腾讯 · 高级工程师 (已认证)

在上一篇文章中,我们分析了DAGScheduler的代码,重点了解了stage的创建和划分,是重中之重。这篇文章重点分析下task的创建:

12340

【大数据】Spark优化经验&案例--数据倾斜

onephone

腾讯 · 工程师 (已认证)

46880

Hadoop/Spark读写ES之性能调优

ethanzhang

腾讯 · 高级工程师 (已认证)

腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇

44920

SparkContext源码解读

幽鸿

腾讯 · 高级工程师 (已认证)

TaskSceduler在具体创建的时候,是由不同发布模式比如standalone、yarn、mesos决定的,返回一个SchedulerBackend.

25930

基于Spark的ID Mapping——Spark实现离线不相交集计算

2011aad

腾讯 · 后台开发 (已认证)

最近在开发一个ID Mapping业务系统——识别数据上报中社交账号的关联关系,找到系统中哪些社交账号属于现实世界中的同一个人。简单来讲,如果同一条上报数据中出...

439120

Spark DAGScheduler源码解读2-task创建

幽鸿

腾讯 · 高级工程师 (已认证)

在上一篇文章中,我们分析了DAGScheduler的代码,重点了解了stage的创建和划分,是重中之重。这篇文章重点分析下task的创建:

11920

Spark DAGScheduler源码解读1-stage划分

幽鸿

腾讯 · 高级工程师 (已认证)

这里创建一个stage,并且将stage放入scheduler的HashMap中进行管理:

11940

Spark提交任务入口源码分析

幽鸿

腾讯 · 高级工程师 (已认证)

我们平常在使用Spark进行提交代码的时候,一般是直接在装有spark客户端的机器上提交jar包执行。运行命令如下:

14570

Spark算子:map和flatMap区别

幽鸿

腾讯 · 高级工程师 (已认证)

27740

IDEA正确打开源码姿势

幽鸿

腾讯 · 高级工程师 (已认证)

这里有个误区,看看这个spark-core_2.11-2.0.2-sources.jar才64kb,右键用WinRAR打开,要么报错文件错误不能打开,要么打开里...

34650

Spark+Zookeeper搭建高可用Spark集群

阿dai学长

目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,详情参考。

8710

大数据基石——Hadoop与MapReduce

TechFlow-承志

近两年AI成了最火热领域的代名词,各大高校纷纷推出了人工智能专业。但其实,人工智能也好,还是前两年的深度学习或者是机器学习也罢,都离不开底层的数据支持。对于动辄...

10630

扫码关注云+社区

领取腾讯云代金券