腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
行者悟空
专栏作者
举报
51
文章
79155
阅读量
22
订阅数
订阅专栏
申请加入专栏
全部文章(51)
spark(15)
nginx(8)
scala(7)
apache(7)
mapreduce(7)
其他(6)
java(6)
hadoop(6)
linux(4)
rpc(4)
大数据(4)
存储(3)
开源(3)
hive(3)
zookeeper(3)
安全(3)
node.js(2)
云数据库 SQL Server(2)
yarn(2)
分布式(2)
缓存(2)
jdk(2)
windows(2)
php(1)
.net(1)
xml(1)
json(1)
数据库(1)
云数据库 Redis(1)
memcached(1)
sql(1)
eclipse(1)
tomcat(1)
centos(1)
人工智能(1)
网站(1)
编程算法(1)
shell(1)
jvm(1)
ssh(1)
面向对象编程(1)
微信(1)
数据结构(1)
https(1)
hbase(1)
搜索文章
搜索
搜索
关闭
Spark的共享变量
spark
缓存
scala
Spark程序的大部分操作都是RDD操作,通过传入函数给RDD操作函数来计算。这些函数在不同的节点上并发执行,内部的变量有不同的作用域,不能相互访问,有些情况下不太方便,所以Spark提供了两类共享变量供编程使用——广播变量和计数器。 1. 广播变量 这是一个只读对象,在所有节点上都有一份缓存,创建方法是SparkContext.broadcast(),比如: scala> val broadcastVar = sc.broadcast(Array(1, 2, 3)) broadcastVar: org.a
天策
2018-06-22
611
0
Spark RDD中的持久化
spark
缓存
持久化在早期被称作缓存(cache),但缓存一般指将内容放在内存中。虽然持久化操作在绝大部分情况下都是将RDD缓存在内存中,但一般都会在内存不够时用磁盘顶上去(比操作系统默认的磁盘交换性能高很多)。当然,也可以选择不使用内存,而是仅仅保存到磁盘中。所以,现在Spark使用持久化(persistence)这一更广泛的名称。 如果一个RDD不止一次被用到,那么就可以持久化它,这样可以大幅提升程序的性能,甚至达10倍以上。默认情况下,RDD只使用一次,用完即扔,再次使用时需要重新计算得到,而持久化操作避免了这里的
天策
2018-06-22
705
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档