腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Deep learning进阶路
专栏作者
举报
114
文章
178693
阅读量
55
订阅数
订阅专栏
申请加入专栏
全部文章
python
深度学习
编程算法
c++
spark
pytorch
https
神经网络
存储
机器学习
网络安全
人工智能
bash
bash 指令
http
anaconda
c#
sql
linux
node.js
ide
api
批量计算
分布式
opencv
二叉树
对象存储
官方文档
javascript
css
数据库
git
github
mapreduce
yarn
开源
面向对象编程
caffe
gpu
torch
tensorflow
html
makefile
打包
matlab
jar
apt-get
文件存储
腾讯云测试服务
serverless
hive
线性回归
gcc
大数据
数据处理
数据结构
blob
cuda
data
input
layer
mnist
output
self
size
snapshot
solver
src
union
优化
搜索文章
搜索
搜索
关闭
Pyspark学习笔记(四)弹性分布式数据集 RDD 综述(下)
编程算法
对象存储
存储
https
网络安全
本篇主要讲述了如何在执行pyspark任务时候缓存或者共享变量,以达到节约资源、计算量、时间等目的
TeeyoHuang
2022-11-28
1.9K
0
Pyspark学习笔记(四)弹性分布式数据集 RDD 综述(上)
分布式
数据库
spark
python
sql
RDD(弹性分布式数据集) 是 PySpark 的基本构建块,是spark编程中最基本的数据对象; 它是spark应用中的数据集,包括最初加载的数据集,中间计算的数据集,最终结果的数据集,都是RDD。 从本质上来讲,RDD是对象分布在各个节点上的集合,用来表示spark程序中的数据。以Pyspark为例,其中的RDD就是由分布在各个节点上的python对象组成,类似于python本身的列表的对象的集合。区别在于,python集合仅在一个进程中存在和处理,而RDD分布在各个节点,指的是【分散在多个物理服务器上的多个进程上计算的】 这里多提一句,尽管可以将RDD保存到硬盘上,但RDD主要还是存储在内存中,至少是预期存储在内存中的,因为spark就是为了支持机器学习应运而生。 一旦你创建了一个 RDD,就不能改变它。
TeeyoHuang
2022-11-28
3.6K
0
Pyspark学习笔记(二)--- spark部署及spark-submit命令简介
yarn
node.js
spark
python
Pyspark学习笔记(二)--- spark部署及spark-submit命令简介
TeeyoHuang
2022-11-28
836
0
Pyspark学习笔记(五)RDD操作(四)_RDD连接/集合操作
官方文档
spark
python
对应于SQL中常见的JOIN操作 菜鸟教程网关于SQL连接总结性资料 Pyspark中的连接函数要求定义键,因为连接的过程是基于共同的字段(键)来组合两个RDD中的记录,因此需要操作键值对RDD
TeeyoHuang
2022-09-23
1.2K
0
Pyspark学习笔记(五)RDD操作(三)_键值对RDD转换操作
spark
python
mapreduce
Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下) Pyspark学习笔记(五)RDD操作(一)_RDD转换操作 Pyspark学习笔记(五)RDD操作(二)_RDD行动操作
TeeyoHuang
2022-05-25
1.6K
0
Pyspark学习笔记(五)RDD操作(二)_RDD行动操作
spark
python
Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下) Pyspark学习笔记(五)RDD操作(一)_RDD转换操作
TeeyoHuang
2022-04-14
1.4K
0
Pyspark学习笔记(五)RDD操作(一)_RDD转换操作
spark
python
css
Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下)
TeeyoHuang
2022-04-14
1.8K
0
Pyspark学习笔记(六)DataFrame简介
api
分布式
spark
python
在Spark中, DataFrame 是组织成 命名列[named colums]的分布时数据集合。它在概念上等同于关系数据库中的表或R/Python中的数据框,但在幕后做了更丰富的优化。DataFrames可以从多种来源构建,例如:结构化数据文件、Hive中的表、外部数据库或现有RDD.
TeeyoHuang
2021-09-14
1.9K
0
Pyspark学习笔记(五)RDD的操作
serverless
spark
https
python
PySpark RDD 转换操作(Transformation) 是惰性求值,用于将一个 RDD 转换/更新为另一个。由于RDD本质上是不可变的,转换操作总是创建一个或多个新的RDD而不更新现有的RDD,因此,一系列RDD转换创建了一个RDD谱系(依赖图)。
TeeyoHuang
2021-08-18
4K
0
Pyspark学习笔记(四)弹性分布式数据集 RDD(下)
编程算法
对象存储
存储
https
网络安全
本篇主要讲述了如何在执行pyspark任务时候缓存或者共享变量,以达到节约资源、计算量、时间等目的
TeeyoHuang
2021-08-18
2.4K
0
Pyspark学习笔记(四)弹性分布式数据集 RDD(上)
spark
数据库
sql
大数据
python
RDD(弹性分布式数据集) 是 PySpark 的基本构建块,它是容错、不可变的 分布式对象集合。
TeeyoHuang
2021-06-29
3.7K
0
Pyspark学习笔记(四)---弹性分布式数据集 RDD [Resilient Distribute Data](上)
spark
分布式
http
python
api
RDD是Spark编程中最基本的数据对象, 无论是最初加载的数据集,还是任何中间结果的数据集,或是最终的结果数据集,都是RDD。 在Pyspark中,RDD是由分布在各节点上的python对象组成,如列表,元组,字典等。 RDD主要是存储在内存中(亦可持久化到硬盘上),这就是相对于Hadoop的MapReduce的优点,节省了重新读取硬盘数据的时间。
TeeyoHuang
2021-05-10
1.9K
0
Pyspark学习笔记(四)---弹性分布式数据集 RDD [Resilient Distribute Data](下)
javascript
c++
Pyspark学习笔记(四)—弹性分布式数据集 RDD [Resilient Distribute Data](下)
TeeyoHuang
2021-05-10
420
0
Pyspark学习笔记(三)--- SparkContext 与 SparkSession
api
sql
hive
spark
python
__SparkContext__是spark功能的主要入口。 其代表与spark集群的连接,能够用来在集群上创建RDD、累加器、广播变量。 每个JVM里只能存在一个处于激活状态的SparkContext,在创建新的SparkContext之前必须调用stop()来关闭之前的SparkContext.
TeeyoHuang
2021-05-10
3.1K
0
Pyspark学习笔记(二)--- spark-submit命令
linux
spark
jar
yarn
python
http://spark.apache.org/docs/latest/submitting-applications.html#submitting-applications,
TeeyoHuang
2021-05-10
1.7K
0
Pyspark学习笔记(一)---序言及目录
spark
github
git
开源
sql
############################## Spark SQL Guide############################
TeeyoHuang
2021-05-10
615
0
TensorFlow使用
tensorflow
最近因为工作需要,准备使用TensorFlow框架,因为一直有使用pytorch的经验,所以以为不会很麻烦,但是看了几天官方文档之后,果断弃坑,去TMDSB Tensorflow,模块乱糟糟的像一锅粥,我宁愿去用百度的paddlepaddle。
TeeyoHuang
2021-05-10
314
0
离线安装pytorch
linux
pytorch
https
网络安全
anaconda
用网址链接直接用浏览器或者其他工具下载安装包,然后拷贝回linux系统中本地离线安装。
TeeyoHuang
2020-05-09
3.1K
0
深度学习基础知识(七)--- 各种优化方法
编程算法
pytorch
批量计算
深度学习
深度学习中,优化算法的 目标函数 通常是一个基于训练集的损失函数,优化的目标在于降低训练误差。
TeeyoHuang
2020-02-18
1.1K
0
深度学习基础知识(六)--- 损失函数
pytorch
https
网络安全
html
总的说来,它是把目标值(Yi)与估计值(f(xi))的绝对差值的总和(S)最小化:
TeeyoHuang
2020-02-18
3K
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
点击查看
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
立即参加
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档