码的一手好代码-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

码的一手好代码

专栏成员

68

文章

96451

阅读量

18

订阅数

设计模式七大原则

spark css 缓存编程算法

累加器（Accumulator）是Spark提供的累加器，顾名思义，该变量只能够增加。由Driver端进行初始变量，Task再对声明的变量进行累加操作。

俺也想起舞

2019-11-27

4610

Spark中累加器的陷阱

spark css 缓存编程算法

累加器（Accumulator）是Spark提供的累加器，顾名思义，该变量只能够增加。由Driver端进行初始变量，Task再对声明的变量进行累加操作。

俺也想起舞

2019-11-27

9540

Spark中的持久化

文件存储 spark 缓存 java 存储

Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓存是迭代算法和快速的交互式使用的重要工具。

俺也想起舞

2019-11-27

7150

spark hadoop mapreduce 编程算法

Transformation：进行数据的转换，即将一个RDD转换成另一个RDD，这类转换并不触发提交作业，完成作业中间过程处理。

俺也想起舞

2019-07-24

3880

spark源码分析————DAGScheduler实现

DAGScheduler创建、Job提交、Stage划分、任务生成

俺也想起舞

2019-07-24

4520

spark RPC原理

java scala spark rpc

Spark-1.6以后RPC默认使用Netty替代Akka，在Netty上加了一层封装，为实现对Spark的定制开发，所以了解Spark中RPC的原理还是有必要的

俺也想起舞

2019-07-24

9770

Spark源码分析————start-all

spark bash bash 指令 scala

org.apache.spark.deploy.master.Master 让我们先来看看main()方法

俺也想起舞

2019-07-24

5820

spark源码分析————submit

会先经历spark-class org.apache.spark.deploy.SparkSubmit处理，里面包括一些基本环境配置，然后运行

俺也想起舞

2019-07-24

1.2K0

spark源码分析————shell

spark-shell启动的过程源码分析 spark-shell function main() { # 对当前系统进行判断，通过spark-submits.sh 启动 org.apac

俺也想起舞

2019-07-24

6110

Spark内部原理

mapreduce 文件存储缓存 spark 编程算法

Spark中的Shuffle、宽依赖窄依赖、RDD持久化、共享变量

俺也想起舞

2019-07-24

7650

Spark Streaming写出文件自定义文件名

hadoop spark hive

通过重写MultipleOutputFormat来自定义文件名

俺也想起舞

2019-07-24

1.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态