首页
学习
活动
专区
工具
TVP
发布

Golang开发

专栏成员
289
文章
273998
阅读量
38
订阅数
Spark SQL
官方地址 http://spark.apache.org/sql/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。
羊羽shine
2019-08-22
7320
Spark——RDD
全称为Resilient Distributed Datasets,弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合。RDD在逻辑上是一个数据集,在物理上则可以分块分布在不同的机器上并发运行。RDD允许用户在执行多个查询时显示的将工作缓存在内存中,后续的查询能够重用工作集,这极大的提升了查询速度。 在Spark 中,对数据的所有操作不外乎创建RDD,转换已有RDD以及调用RDD操作进行求值,每个RDD都被分为多个分区,这些分区运行在集群的不同节点上,RDD可以包含Python,Java,Scala中任意类型的对象,甚至可以是用户自定义对象。 RDD是Spark的核心,也是整个Spark的架构基础。它的特性可以总结如下:
羊羽shine
2019-08-08
6110
zookeeper(1)——基础配置
1.master节点选举,主节点挂了以后,从节点就会接手工作,并且保证这个节点是唯一的,这也是所谓的首脑模式,从而保证我们的集群是高可用的。 2.统一配置文件管理,即只需要部署一台服务器,则可以把相同的配网文件同步更新到其他所有服务器,此操作在云计算中用的特别多。 3.发布与订阅 类似消息队列的MQ(amq,rmq...),dubbo发布者把数据存在znode上,订阅者会读取这个数据。 4. 提供分布式锁 分布式环境中不同进程之间争夺资源,类似于多线程中的锁。 5 集群管理 集群中保证数据的强一致性。
羊羽shine
2019-05-29
4310
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档