首页
学习
活动
专区
工具
TVP
发布

码的一手好代码

专栏作者
68
文章
89914
阅读量
18
订阅数
设计模式七大原则
累加器(Accumulator)是Spark提供的累加器,顾名思义,该变量只能够增加。由Driver端进行初始变量,Task再对声明的变量进行累加操作。
俺也想起舞
2019-11-27
4470
Spark中累加器的陷阱
累加器(Accumulator)是Spark提供的累加器,顾名思义,该变量只能够增加。由Driver端进行初始变量,Task再对声明的变量进行累加操作。
俺也想起舞
2019-11-27
9190
Spark中的持久化
Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓存是迭代算法和快速的交互式使用的重要工具。
俺也想起舞
2019-11-27
6610
Spark入门
Transformation:进行数据的转换,即将一个RDD转换成另一个RDD,这类转换并不触发提交作业,完成作业中间过程处理。
俺也想起舞
2019-07-24
3740
spark源码分析————DAGScheduler实现
DAGScheduler创建、Job提交、Stage划分、任务生成
俺也想起舞
2019-07-24
4180
spark RPC原理
Spark-1.6以后RPC默认使用Netty替代Akka,在Netty上加了一层封装,为实现对Spark的定制开发,所以了解Spark中RPC的原理还是有必要的
俺也想起舞
2019-07-24
9500
Spark源码分析————start-all
org.apache.spark.deploy.master.Master 让我们先来看看main()方法
俺也想起舞
2019-07-24
5420
spark源码分析————submit
会先经历spark-class org.apache.spark.deploy.SparkSubmit处理,里面包括一些基本环境配置,然后运行
俺也想起舞
2019-07-24
1.1K0
spark源码分析————shell
spark-shell启动的过程源码分析 spark-shell function main() { # 对当前系统进行判断,通过spark-submits.sh 启动 org.apac
俺也想起舞
2019-07-24
5960
Spark内部原理
Spark中的Shuffle、宽依赖窄依赖、RDD持久化、共享变量
俺也想起舞
2019-07-24
7360
Spark Streaming写出文件自定义文件名
通过重写MultipleOutputFormat来自定义文件名
俺也想起舞
2019-07-24
1.3K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档