Golang开发-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Golang开发

专栏成员

289

文章

274324

阅读量

38

订阅数

python 分布式 spark sql

官方地址 http://spark.apache.org/sql/ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。

2019-08-22

7340

分布式 spark 大数据数据结构

全称为Resilient Distributed Datasets,弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变，可分区,里面的元素可并行计算的集合。RDD在逻辑上是一个数据集，在物理上则可以分块分布在不同的机器上并发运行。RDD允许用户在执行多个查询时显示的将工作缓存在内存中，后续的查询能够重用工作集，这极大的提升了查询速度。在Spark 中，对数据的所有操作不外乎创建RDD,转换已有RDD以及调用RDD操作进行求值，每个RDD都被分为多个分区，这些分区运行在集群的不同节点上，RDD可以包含Python,Java,Scala中任意类型的对象，甚至可以是用户自定义对象。 RDD是Spark的核心，也是整个Spark的架构基础。它的特性可以总结如下：

2019-08-08

6130

zookeeper(1)——基础配置

zookeeper node.js 分布式

1.master节点选举，主节点挂了以后，从节点就会接手工作，并且保证这个节点是唯一的，这也是所谓的首脑模式，从而保证我们的集群是高可用的。 2.统一配置文件管理，即只需要部署一台服务器，则可以把相同的配网文件同步更新到其他所有服务器，此操作在云计算中用的特别多。 3.发布与订阅类似消息队列的MQ(amq,rmq...),dubbo发布者把数据存在znode上，订阅者会读取这个数据。 4. 提供分布式锁分布式环境中不同进程之间争夺资源，类似于多线程中的锁。 5 集群管理集群中保证数据的强一致性。

2019-05-29

4310

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态