腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Deep learning进阶路

专栏作者

114

文章

181650

阅读量

55

订阅数

Pyspark学习笔记（四）弹性分布式数据集 RDD 综述（上）

分布式数据库 spark python sql

RDD（弹性分布式数据集）是 PySpark 的基本构建块，是spark编程中最基本的数据对象；它是spark应用中的数据集，包括最初加载的数据集，中间计算的数据集，最终结果的数据集，都是RDD。从本质上来讲，RDD是对象分布在各个节点上的集合，用来表示spark程序中的数据。以Pyspark为例，其中的RDD就是由分布在各个节点上的python对象组成，类似于python本身的列表的对象的集合。区别在于，python集合仅在一个进程中存在和处理，而RDD分布在各个节点，指的是【分散在多个物理服务器上的多个进程上计算的】这里多提一句，尽管可以将RDD保存到硬盘上，但RDD主要还是存储在内存中，至少是预期存储在内存中的，因为spark就是为了支持机器学习应运而生。一旦你创建了一个 RDD，就不能改变它。

2022-11-28

3.7K0

Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

yarn node.js spark python

Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

2022-11-28

9090

Pyspark学习笔记（五）RDD操作(四)_RDD连接/集合操作

官方文档 spark python

对应于SQL中常见的JOIN操作菜鸟教程网关于SQL连接总结性资料 Pyspark中的连接函数要求定义键，因为连接的过程是基于共同的字段(键)来组合两个RDD中的记录，因此需要操作键值对RDD

2022-09-23

1.2K0

Pyspark学习笔记（五）RDD操作(三)_键值对RDD转换操作

spark python mapreduce

Pyspark学习笔记（一）—序言及目录 Pyspark学习笔记（二）— spark-submit命令 Pyspark学习笔记（三）— SparkContext 与 SparkSession Pyspark学习笔记（四）弹性分布式数据集 RDD（上） Pyspark学习笔记（四）弹性分布式数据集 RDD（下） Pyspark学习笔记（五）RDD操作(一)_RDD转换操作 Pyspark学习笔记（五）RDD操作(二)_RDD行动操作

2022-05-25

1.7K0

Pyspark学习笔记（五）RDD操作(二)_RDD行动操作

Pyspark学习笔记（一）—序言及目录 Pyspark学习笔记（二）— spark-submit命令 Pyspark学习笔记（三）— SparkContext 与 SparkSession Pyspark学习笔记（四）弹性分布式数据集 RDD（上） Pyspark学习笔记（四）弹性分布式数据集 RDD（下） Pyspark学习笔记（五）RDD操作(一)_RDD转换操作

2022-04-14

1.5K0

Pyspark学习笔记（五）RDD操作(一)_RDD转换操作

spark python css

Pyspark学习笔记（一）—序言及目录 Pyspark学习笔记（二）— spark-submit命令 Pyspark学习笔记（三）— SparkContext 与 SparkSession Pyspark学习笔记（四）弹性分布式数据集 RDD（上） Pyspark学习笔记（四）弹性分布式数据集 RDD（下）

2022-04-14

1.9K0

Pyspark学习笔记（六）DataFrame简介

api 分布式 spark python

在Spark中, DataFrame 是组织成命名列[named colums]的分布时数据集合。它在概念上等同于关系数据库中的表或R/Python中的数据框，但在幕后做了更丰富的优化。DataFrames可以从多种来源构建，例如：结构化数据文件、Hive中的表、外部数据库或现有RDD.

2021-09-14

2K0

Pyspark学习笔记（五）RDD的操作

serverless spark https python

PySpark RDD 转换操作(Transformation) 是惰性求值，用于将一个 RDD 转换/更新为另一个。由于RDD本质上是不可变的，转换操作总是创建一个或多个新的RDD而不更新现有的RDD，因此，一系列RDD转换创建了一个RDD谱系（依赖图）。

2021-08-18

4.1K0

Pyspark学习笔记（四）弹性分布式数据集 RDD（上）

spark 数据库 sql 大数据 python

RDD（弹性分布式数据集）是 PySpark 的基本构建块，它是容错、不可变的分布式对象集合。

2021-06-29

3.8K0

Pyspark学习笔记（四）---弹性分布式数据集 RDD [Resilient Distribute Data]（上）

spark 分布式 http python api

RDD是Spark编程中最基本的数据对象，无论是最初加载的数据集，还是任何中间结果的数据集，或是最终的结果数据集，都是RDD。在Pyspark中，RDD是由分布在各节点上的python对象组成，如列表，元组，字典等。 RDD主要是存储在内存中（亦可持久化到硬盘上），这就是相对于Hadoop的MapReduce的优点，节省了重新读取硬盘数据的时间。

2021-05-10

2K0

Pyspark学习笔记（三）--- SparkContext 与 SparkSession

api sql hive spark python

__SparkContext__是spark功能的主要入口。其代表与spark集群的连接，能够用来在集群上创建RDD、累加器、广播变量。每个JVM里只能存在一个处于激活状态的SparkContext，在创建新的SparkContext之前必须调用stop()来关闭之前的SparkContext.

2021-05-10

3.1K0

Pyspark学习笔记（二）--- spark-submit命令

linux spark jar yarn python

http://spark.apache.org/docs/latest/submitting-applications.html#submitting-applications,

2021-05-10

1.7K0

conda虚拟环境

https 网络安全 python anaconda

原文链接：https://blog.csdn.net/weixin_43593330/article/details/93378987

2019-11-14

1.2K0

Pytorch打怪路（二）pytorch进行mnist训练和测试

python https pytorch 网络安全

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79242946

2019-05-25

1.8K0

Pytorch打怪路（一）pytorch进行CIFAR-10分类（5）测试

pytorch python mapreduce

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79222857

2019-05-25

2.3K1

Linux系统（Ubantu16.04）安装Pytorch

python pytorch 深度学习 anaconda

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79081563

2019-05-25

1.8K0

Linux系统安装Anaconda

python anaconda https http

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79076239

2019-05-25

6.6K0

如何在Anaconda的python和系统自带的python之间切换

python anaconda

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79076821

2019-05-25

3.7K0

利用FCN和已有的model进行图像语义分割

本例中我们使用的是pascalcontext-fcn32的模型，这个下载链接在它的文件夹里有，就是url那个文件

2019-05-25

8170

文件对象方法 Method of FileObject

编程算法 python

close() 方法用于关闭一个已打开的文件。关闭后的文件不能再进行读写操作，否则会触发 ValueError 错误。

2019-05-25

6590

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态