腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
何时
从
内存
中
删除
数据
帧
,
以及
如何
显
式
删除
数据
帧
、
以下是场景示例,我想在不再使用df1释放
内存
的代码时立即将其
删除
- df1 = spark.sql("Select 1 as X") df2 = df1.withColumn("Y", df1["X"
浏览 28
提问于2020-01-22
得票数 2
1
回答
如何
从
pyspark
中
删除
数据
帧
来管理
内存
?
、
、
、
我列出我的
数据
帧
以丢弃未使用的
数据
帧
。首先,我使用下面的函数列出了我在其中一篇文章中找到的
数据
帧
然后我试着
从
列表
中
删除
未使用的。
如何</em
浏览 0
提问于2018-10-31
得票数 4
回答已采纳
3
回答
取消持久化(py)spark
中
的所有
数据
帧
、
、
、
、
这通常是
在
一个大的步骤之后,或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的
数据
帧
调用cache时,一个新的副本被缓存到
内存
中
。
在
我的应用程序
中
,这会导致
在
扩展时出现
内存
问题。尽管
在
我当前的测试
中
,给定的
数据
帧
最大大约为100MB,但中间结果的累积大小超出了executor上分配的
内存
。请参见下面的小示例,该示例演示了此行为。,还有原始
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
1
回答
在
Databricks中使用
Pyspark
更新
数据
库表
、
、
、
我
在
Azure SQL Server
数据
库中有一个表,该表是
从
我的Dataframe填充的。我想使用
pyspark
/ pandas基于多条件
数据
库来更新这个表。我是
PySpark
/ Databricks / Pandas的新手,有人能告诉我
如何
更新表吗?我已经将
数据
插入到表
中
-我可以想到的一种解决方案是将表
中
的
数据
加载到
数据
帧
<e
浏览 2
提问于2020-04-20
得票数 0
1
回答
我们是否必须
显
式
地使用RDDs和诸如foreach、parallelize之类的操作来
在
pyspark
中
执行并行处理?
、
、
如果我们对group by,merge,for两个
数据
帧
使用普通的python操作,而不是
显
式
地使用map,reducebykey,groupbykey等,是否存在性能差异?这是否意味着要激活并行处理,我们必须
显
式
使用RDDs?正常的
数据
帧
使用不是并行处理(尽管是
在
pyspark
中
完成的)?
浏览 1
提问于2021-10-26
得票数 0
1
回答
从
数组
pyspark
中
删除
数组列
、
假设我
在
pyspark
数据
帧
中有以下
数据
结构: arr1:array string1:string element:string string2: string
如何
从
我的
数据
帧
中
删除
arr2?
浏览 8
提问于2019-10-15
得票数 0
3
回答
如何
从
内存
中
删除
多个pandas (python)
数据
帧
以节省
内存
?
、
、
、
、
我已经创建了很多
数据
帧
作为预处理的一部分。由于我限制了6 6GB的
内存
,我想从
内存
中
删除
所有不必要的
数据
帧
,以避免
在
scikit-learn
中
运行GRIDSEARCHCV时耗尽
内存
。1)是否有一个函数可以只列出当前加载到
内存
中
的所有
数据
帧
? 我尝试了dir(),但它提供了许多
数据
帧
以外的其他对
浏览 1
提问于2015-08-27
得票数 52
1
回答
如何
在存储到
数据
库后丢弃pandas
数据
帧
、
如何
在将熊猫
数据
帧
存储到
数据
库后将其
删除
。我只能找到
从
数据
帧
中
删除
列或行的方法,但是
如何
删除
完整的
数据
帧
来释放我的计算机
内存
?
浏览 6
提问于2016-02-09
得票数 0
1
回答
删除
Pyspark
Dataframe
、
我正在处理非常大的
数据
集,因此我需要
删除
任何中间
数据
帧
。
如何
确保
从
内存
/磁盘
中
删除
任何不需要的
数据
帧
?
浏览 0
提问于2017-06-28
得票数 2
2
回答
为什么groupBy()比
pyspark
中
的distinct()快得多?
当我用groupBy()替换spark
数据
帧
上的distinct()时,我
在
我的
pyspark
代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是
从
数据
帧
中
删除
行级重复项。我尝试
在
谷歌上搜索groupBy()和distinct()
在
pyspark
中
的实现,但没有找到。 有没有人能给我解释一下或者给我指出正确的方向?
浏览 0
提问于2018-09-11
得票数 6
1
回答
H20
数据
帧
与Spark RDD的区别
我只是好奇H20
数据
帧
和Spark RDDs有什么不同。h2o
数据
帧
可以像Spark RDDs一样缓存或持久化吗?
浏览 0
提问于2017-05-21
得票数 2
2
回答
熊猫的记忆有效过滤
、
我使用以下代码
从
相当大的
数据
帧
中
删除
行。try: return df 但是,任务管理器没有
在
每次迭代时减少
内存
中
数据
帧
的大小(每次
删除
大量
数据
),而是显示了更高的
内存
利用率。
在
开
浏览 0
提问于2019-08-21
得票数 0
回答已采纳
2
回答
优化
PySpark
与pandas DataFrames之间的转换
、
、
、
、
我有一个13M行的
pyspark
数据
帧
,我想把它转换成pandas
数据
帧
。然后,将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对
数据
帧
进行重新采样以进行进一步分析。
从
文献[,]
中
,我发现使用以下任何一行都可以加快
pyspark
到pandas
数据
帧
之间的转换: spark.conf.set("spark.sql.execution.arrow.
pyspar
浏览 11
提问于2021-11-19
得票数 0
1
回答
如何
使用
Pyspark
/SQL/DataFrames SPARK RDD来插入/
删除
DB2源表
数据
?
、
、
、
我尝试运行upsert/delete命令来插入/
删除
DB2
数据
库源表
中
的一些值,这是DB2上的一个现有表。是否可以使用
Pyspark
/Spark SQL/Dataframes。
浏览 2
提问于2019-05-10
得票数 0
1
回答
读取json文件时占用的
内存
、
、
、
我正在尝试读取几个json文件,并将它们附加到一个
数据
帧
中
。这样做会消耗我的整个系统
内存
,从而减慢所有进程。end = time.time() prin
浏览 16
提问于2019-03-27
得票数 0
1
回答
windowPartitionBy和
pyspark
中
的重新分区
、
、
、
我
在
SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么的吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
为什么反复调用glBufferData崩溃模拟器?
、
、
在
开发过程
中
,我注意到一个奇怪的"bug“,它只能在Android模拟器上重现。我使用的是带有GPU加速的x86版本。此渲染器由活动
中
的GLSurfaceView使用。每一
帧
,渲染器使用1000个四边形顶点的
数据
创建一个新的
数据
存储。如果模拟器保持大约一分钟不动,
帧
速率开始
从
60 FPS下降到1 FPS,最终活动挂起。 问:是我的错还是模拟器的问题?
在
真实设备上不会出现问题。
浏览 0
提问于2013-12-02
得票数 1
3
回答
火花-
在
火花中操作后
内存
中
的
数据
发生了什么变化?
、
、
我的问题是,当我将csv文件作为火花
数据
文件读取时,我进行如下所示的转换,操作操作后
内存
中
的
数据
(RAM)发生了什么变化。df = spark.read.csv('example.csv')df1.show()
在
show操作之后,
内存
中
的任何中间结果(
数据
)发生了什么变化?它会
从
记忆
中
移
浏览 20
提问于2022-10-12
得票数 0
回答已采纳
1
回答
删除
并释放单个pandas
数据
帧
的
内存
、
、
我
在
pandas
中
运行了一个很长的ETL管道。我必须创建不同的pandas
数据
帧
,并且我想为一些
数据
帧
释放
内存
。我一直
在
阅读
如何
释放
内存
,我发现运行此命令不会释放
内存
: del dataframe 下面是这个链接:How to delete multiple pandas (python) dataframes
在
答案
中
,他们说将
数据
帧</
浏览 171
提问于2020-10-15
得票数 2
回答已采纳
1
回答
如何
从
PySpark
列表
中
删除
/替换字符
、
、
、
我是Python/
PySpark
的新手,目前
在
Databricks中使用它。object" : ["191.168.192.103", "191.168.192.107"]}',),当我试着它不能正确解析JSON。结果
数据
帧
是一个以_corrupt_re
浏览 6
提问于2019-11-15
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
谷歌黑科技实现视频背景实时“抠像”
彻底根治PR出现各种非正常渲染导出、编译错误问题!
微软专利为AR/VR社交提出基于手势识别呈现emoji表情
Google黑科技!让演员、主播更好当,门都不出就把戏拍了!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券