首页
学习
活动
专区
工具
TVP
发布

Deep learning进阶路

专栏作者
114
文章
178715
阅读量
55
订阅数
Pyspark学习笔记(四)弹性分布式数据集 RDD 综述(下)
本篇主要讲述了如何在执行pyspark任务时候缓存或者共享变量,以达到节约资源、计算量、时间等目的
TeeyoHuang
2022-11-28
1.9K0
Pyspark学习笔记(四)弹性分布式数据集 RDD 综述(上)
RDD(弹性分布式数据集) 是 PySpark 的基本构建块,是spark编程中最基本的数据对象;     它是spark应用中的数据集,包括最初加载的数据集,中间计算的数据集,最终结果的数据集,都是RDD。     从本质上来讲,RDD是对象分布在各个节点上的集合,用来表示spark程序中的数据。以Pyspark为例,其中的RDD就是由分布在各个节点上的python对象组成,类似于python本身的列表的对象的集合。区别在于,python集合仅在一个进程中存在和处理,而RDD分布在各个节点,指的是【分散在多个物理服务器上的多个进程上计算的】     这里多提一句,尽管可以将RDD保存到硬盘上,但RDD主要还是存储在内存中,至少是预期存储在内存中的,因为spark就是为了支持机器学习应运而生。 一旦你创建了一个 RDD,就不能改变它。
TeeyoHuang
2022-11-28
3.6K0
Pyspark学习笔记(二)--- spark部署及spark-submit命令简介
Pyspark学习笔记(二)--- spark部署及spark-submit命令简介
TeeyoHuang
2022-11-28
8360
Pyspark学习笔记(五)RDD操作(四)_RDD连接/集合操作
对应于SQL中常见的JOIN操作 菜鸟教程网关于SQL连接总结性资料 Pyspark中的连接函数要求定义键,因为连接的过程是基于共同的字段(键)来组合两个RDD中的记录,因此需要操作键值对RDD
TeeyoHuang
2022-09-23
1.2K0
Pyspark学习笔记(五)RDD操作(三)_键值对RDD转换操作
Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下) Pyspark学习笔记(五)RDD操作(一)_RDD转换操作 Pyspark学习笔记(五)RDD操作(二)_RDD行动操作
TeeyoHuang
2022-05-25
1.6K0
Pyspark学习笔记(五)RDD操作(二)_RDD行动操作
Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下) Pyspark学习笔记(五)RDD操作(一)_RDD转换操作
TeeyoHuang
2022-04-14
1.4K0
Pyspark学习笔记(五)RDD操作(一)_RDD转换操作
Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下)
TeeyoHuang
2022-04-14
1.8K0
Pyspark学习笔记(六)DataFrame简介
  在Spark中, DataFrame 是组织成 命名列[named colums]的分布时数据集合。它在概念上等同于关系数据库中的表或R/Python中的数据框,但在幕后做了更丰富的优化。DataFrames可以从多种来源构建,例如:结构化数据文件、Hive中的表、外部数据库或现有RDD.
TeeyoHuang
2021-09-14
1.9K0
Pyspark学习笔记(五)RDD的操作
    PySpark RDD 转换操作(Transformation) 是惰性求值,用于将一个 RDD 转换/更新为另一个。由于RDD本质上是不可变的,转换操作总是创建一个或多个新的RDD而不更新现有的RDD,因此,一系列RDD转换创建了一个RDD谱系(依赖图)。
TeeyoHuang
2021-08-18
4K0
Pyspark学习笔记(四)弹性分布式数据集 RDD(下)
本篇主要讲述了如何在执行pyspark任务时候缓存或者共享变量,以达到节约资源、计算量、时间等目的
TeeyoHuang
2021-08-18
2.4K0
Pyspark学习笔记(四)弹性分布式数据集 RDD(上)
RDD(弹性分布式数据集) 是 PySpark 的基本构建块,它是容错、不可变的 分布式对象集合。
TeeyoHuang
2021-06-29
3.7K0
Pyspark学习笔记(四)---弹性分布式数据集 RDD [Resilient Distribute Data](上)
RDD是Spark编程中最基本的数据对象, 无论是最初加载的数据集,还是任何中间结果的数据集,或是最终的结果数据集,都是RDD。 在Pyspark中,RDD是由分布在各节点上的python对象组成,如列表,元组,字典等。 RDD主要是存储在内存中(亦可持久化到硬盘上),这就是相对于Hadoop的MapReduce的优点,节省了重新读取硬盘数据的时间。
TeeyoHuang
2021-05-10
1.9K0
Pyspark学习笔记(四)---弹性分布式数据集 RDD [Resilient Distribute Data](下)
Pyspark学习笔记(四)—弹性分布式数据集 RDD [Resilient Distribute Data](下)
TeeyoHuang
2021-05-10
4200
Pyspark学习笔记(三)--- SparkContext 与 SparkSession
__SparkContext__是spark功能的主要入口。 其代表与spark集群的连接,能够用来在集群上创建RDD、累加器、广播变量。 每个JVM里只能存在一个处于激活状态的SparkContext,在创建新的SparkContext之前必须调用stop()来关闭之前的SparkContext.
TeeyoHuang
2021-05-10
3.1K0
Pyspark学习笔记(二)--- spark-submit命令
http://spark.apache.org/docs/latest/submitting-applications.html#submitting-applications,
TeeyoHuang
2021-05-10
1.7K0
Pyspark学习笔记(一)---序言及目录
############################## Spark SQL Guide############################
TeeyoHuang
2021-05-10
6150
TensorFlow使用
最近因为工作需要,准备使用TensorFlow框架,因为一直有使用pytorch的经验,所以以为不会很麻烦,但是看了几天官方文档之后,果断弃坑,去TMDSB Tensorflow,模块乱糟糟的像一锅粥,我宁愿去用百度的paddlepaddle。
TeeyoHuang
2021-05-10
3140
离线安装pytorch
用网址链接直接用浏览器或者其他工具下载安装包,然后拷贝回linux系统中本地离线安装。
TeeyoHuang
2020-05-09
3.1K0
深度学习基础知识(七)--- 各种优化方法
深度学习中,优化算法的 目标函数 通常是一个基于训练集的损失函数,优化的目标在于降低训练误差。
TeeyoHuang
2020-02-18
1.1K0
深度学习基础知识(六)--- 损失函数
总的说来,它是把目标值(Yi)与估计值(f(xi))的绝对差值的总和(S)最小化:
TeeyoHuang
2020-02-18
3K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档