首页
学习
活动
专区
工具
TVP
发布

Deep learning进阶路

专栏作者
114
文章
181650
阅读量
55
订阅数
Pyspark学习笔记(四)弹性分布式数据集 RDD 综述(上)
RDD(弹性分布式数据集) 是 PySpark 的基本构建块,是spark编程中最基本的数据对象;     它是spark应用中的数据集,包括最初加载的数据集,中间计算的数据集,最终结果的数据集,都是RDD。     从本质上来讲,RDD是对象分布在各个节点上的集合,用来表示spark程序中的数据。以Pyspark为例,其中的RDD就是由分布在各个节点上的python对象组成,类似于python本身的列表的对象的集合。区别在于,python集合仅在一个进程中存在和处理,而RDD分布在各个节点,指的是【分散在多个物理服务器上的多个进程上计算的】     这里多提一句,尽管可以将RDD保存到硬盘上,但RDD主要还是存储在内存中,至少是预期存储在内存中的,因为spark就是为了支持机器学习应运而生。 一旦你创建了一个 RDD,就不能改变它。
TeeyoHuang
2022-11-28
3.7K0
Pyspark学习笔记(二)--- spark部署及spark-submit命令简介
Pyspark学习笔记(二)--- spark部署及spark-submit命令简介
TeeyoHuang
2022-11-28
9090
Pyspark学习笔记(五)RDD操作(四)_RDD连接/集合操作
对应于SQL中常见的JOIN操作 菜鸟教程网关于SQL连接总结性资料 Pyspark中的连接函数要求定义键,因为连接的过程是基于共同的字段(键)来组合两个RDD中的记录,因此需要操作键值对RDD
TeeyoHuang
2022-09-23
1.2K0
Pyspark学习笔记(五)RDD操作(三)_键值对RDD转换操作
Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下) Pyspark学习笔记(五)RDD操作(一)_RDD转换操作 Pyspark学习笔记(五)RDD操作(二)_RDD行动操作
TeeyoHuang
2022-05-25
1.7K0
Pyspark学习笔记(五)RDD操作(二)_RDD行动操作
Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下) Pyspark学习笔记(五)RDD操作(一)_RDD转换操作
TeeyoHuang
2022-04-14
1.5K0
Pyspark学习笔记(五)RDD操作(一)_RDD转换操作
Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下)
TeeyoHuang
2022-04-14
1.9K0
Pyspark学习笔记(六)DataFrame简介
  在Spark中, DataFrame 是组织成 命名列[named colums]的分布时数据集合。它在概念上等同于关系数据库中的表或R/Python中的数据框,但在幕后做了更丰富的优化。DataFrames可以从多种来源构建,例如:结构化数据文件、Hive中的表、外部数据库或现有RDD.
TeeyoHuang
2021-09-14
2K0
Pyspark学习笔记(五)RDD的操作
    PySpark RDD 转换操作(Transformation) 是惰性求值,用于将一个 RDD 转换/更新为另一个。由于RDD本质上是不可变的,转换操作总是创建一个或多个新的RDD而不更新现有的RDD,因此,一系列RDD转换创建了一个RDD谱系(依赖图)。
TeeyoHuang
2021-08-18
4.1K0
Pyspark学习笔记(四)弹性分布式数据集 RDD(上)
RDD(弹性分布式数据集) 是 PySpark 的基本构建块,它是容错、不可变的 分布式对象集合。
TeeyoHuang
2021-06-29
3.8K0
Pyspark学习笔记(四)---弹性分布式数据集 RDD [Resilient Distribute Data](上)
RDD是Spark编程中最基本的数据对象, 无论是最初加载的数据集,还是任何中间结果的数据集,或是最终的结果数据集,都是RDD。 在Pyspark中,RDD是由分布在各节点上的python对象组成,如列表,元组,字典等。 RDD主要是存储在内存中(亦可持久化到硬盘上),这就是相对于Hadoop的MapReduce的优点,节省了重新读取硬盘数据的时间。
TeeyoHuang
2021-05-10
2K0
Pyspark学习笔记(三)--- SparkContext 与 SparkSession
__SparkContext__是spark功能的主要入口。 其代表与spark集群的连接,能够用来在集群上创建RDD、累加器、广播变量。 每个JVM里只能存在一个处于激活状态的SparkContext,在创建新的SparkContext之前必须调用stop()来关闭之前的SparkContext.
TeeyoHuang
2021-05-10
3.1K0
Pyspark学习笔记(二)--- spark-submit命令
http://spark.apache.org/docs/latest/submitting-applications.html#submitting-applications,
TeeyoHuang
2021-05-10
1.7K0
conda虚拟环境
原文链接:https://blog.csdn.net/weixin_43593330/article/details/93378987
TeeyoHuang
2019-11-14
1.2K0
Pytorch打怪路(二)pytorch进行mnist训练和测试
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79242946
TeeyoHuang
2019-05-25
1.8K0
Pytorch打怪路(一)pytorch进行CIFAR-10分类(5)测试
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79222857
TeeyoHuang
2019-05-25
2.3K1
Linux系统(Ubantu16.04)安装Pytorch
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79081563
TeeyoHuang
2019-05-25
1.8K0
Linux系统安装Anaconda
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79076239
TeeyoHuang
2019-05-25
6.6K0
如何在Anaconda的python和系统自带的python之间切换
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Teeyohuang/article/details/79076821
TeeyoHuang
2019-05-25
3.7K0
利用FCN和已有的model进行图像语义分割
本例中我们使用的是pascalcontext-fcn32的模型,这个下载链接在它的文件夹里有,就是url那个文件
TeeyoHuang
2019-05-25
8170
文件对象方法 Method of FileObject
close() 方法用于关闭一个已打开的文件。关闭后的文件不能再进行读写操作, 否则会触发 ValueError 错误。
TeeyoHuang
2019-05-25
6590
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档