#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

Spark Core源码精读计划19 | RDD的依赖与分区逻辑

暴走大数据

按照计划,本文来讲解RDD的依赖与分区器。这两者不仅与之后调度系统的细节(DAG、Shuffle等)息息相关,而且也是面试Spark系大数据研发工程师时经常被问...

500

Spark Core源码精读计划15 | 心跳接收器HeartbeatReceiver

暴走大数据

按照SparkContext初始化的顺序,下一个应该是心跳接收器HeartbeatReceiver。由于笔者感染乙流仍然没有痊愈,状态不好,文中若有疏漏,请批评...

200

Spark Core源码精读计划16 | 通过ExecutorAllocationManager实现动态Executor分配

暴走大数据

按照SparkContext初始化的顺序,接下来就轮到调度系统的三大金刚——SchedulerBackend、TaskScheduler、DAGSchedule...

500

Spark Core源码精读计划17 | 上下文清理器ContextCleaner

暴走大数据

话休絮烦,本文讲解SparkContext初始化的最后一个组件——ContextCleaner,即上下文清理器。顾名思义,它扮演着Spark Core中垃圾收集...

700

一份关于数据科学家应该具备的技能清单

用户3578099

大数据时代,什么职业比较吃香?答案可以从今年的校招薪资列表上知道——算法工程师、人工智能研究员、数据分析等职位。其实这几个职位有一定的交集,那就是需要处理大量的...

8820

Spark 设置指定 JDK 的正确姿势

Yajun_

设置上面的这两个参数:spark.yarn.appMasterEnv.JAVA_HOME 与 spark.executorEnv.JAVA_HOME,它们的含义...

4810

详解Kafka:大数据开发最火的核心技术

Yajun_

大数据时代来临,如果你还不知道Kafka那你就真的out了(快速掌握Kafka请参考文章:如何全方位掌握Kafka核心技术)!据统计,有三分之一的世界财富500...

9730

Apache Parquet 干货分享

Yajun_

Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Pro...

5530

分析产品需求背后,程序员引发的思考

一猿小讲

首先带着兄弟们深入了解了一下需求背景,需求简单的几句话,看似不难。做过数据的都清楚,凡是涉及到数据,都多多少少比较难搞。

4620

Hadoop、Spark、Kafka面试题及答案整理

Yajun_

一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成。

5720

一份超详细的 Spark 入门介绍

Yajun_

Apache Spark 是 UC Berkeley AMP Lab 开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的...

8120

Apache Spark 内存管理详解(下)

Yajun_

弹性分布式数据集(RDD)作为Spark最根本的数据抽象,是只读的分区记录(Partition)的集合,只能基于在稳定物理存储中的数据集上创建,或者在其他已有的...

4610

Apache Spark 内存管理详解(上)

Yajun_

在默认情况下堆外内存并不启用,可通过配置spark.memory.offHeap.enabled参数启用,并由spark.memory.offHeap.size...

7230

Spark Shuffle的技术演进

Yajun_

本文原文 http://www.leonlu.cc/profession/19-spark-shuffle ,作者 LeonLu

6930

Spark vs. Flink -- 核心技术点

Yajun_

Apache Spark 是一个统一的、快速的分布式计算引擎,能够同时支持批处理与流计算,充分利用内存做并行计算,官方给出Spark内存计算的速度比MapRed...

6030

Elasticsearch 入门与实践系列

Yajun_

Elasticsearch 是目前最流行的搜索引擎。为了能够让自己和小伙伴们更全面掌握 Elasticsearch 的原理与使用技巧,我打算根据自己的使用经验,...

5520

Spark调优 | Spark SQL参数调优

王知无

Spark SQL里面有很多的参数,而且这些参数在Spark官网中没有明确的解释,可能是太多了吧,可以通过在spark-sql中使用set -v 命令显示当前s...

10140

从原理到落地,七大维度读懂协同过滤推荐算法

AI科技大本营

导语:本文会从协同过滤思想简介、协同过滤算法原理介绍、离线协同过滤算法的工程实现、近实时协同过滤算法的工程实现、协同过滤算法应用场景、协同过滤算法的优缺点、协同...

5320

Spark Core源码精读计划14 | Spark Web UI界面的实现

暴走大数据

《Spark Core源码精读计划3 | SparkContext辅助属性及后初始化》

5620

Spark Core源码精读计划12 | Spark序列化及压缩机制浅析

暴走大数据

可见,Spark目前支持4种压缩编解码器,分别是LZ4、LZF、Snappy和ZStd,可以通过配置项spark.io.compression.codec来设置...

8840

扫码关注云+社区

领取腾讯云代金券