腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
dataframe
是否
在
第一次
加载
时
缓存
、
我有一个通过spark sql查询从hive datastore
加载
的
pyspark
dataframe
。我知道只有当我在数据帧上调用show()这样的操作
时
,查询才会执行。如果我在数据帧上多次调用一个操作,查询
是否
会被重新执行,或者
是否
可以
缓存
它?
浏览 26
提问于2018-01-04
得票数 0
回答已采纳
3
回答
取消持久化(py)spark中的所有数据帧
、
、
、
、
这通常是
在
一个大的步骤之后,或者
缓存
一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache
时
,一个新的副本被
缓存
到内存中。
在
我的应用程序中,这会导致
在
扩展
时
出现内存问题。尽管
在
我当前的测试中,给定的数据帧最大大约为100MB,但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例,该示例演示了此行为。cache_test.py: from
pyspark
import SparkContext, H
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
1
回答
如何估计星火
DataFrame
中每列的大小(以字节为单位)?
、
我有一个非常大的星火
DataFrame
和许多列,我想作出一个明智的判断
是否
保持
在
我的管道中,部分取决于它们有多大。所谓“有多大”,我指的是
缓存
这个
DataFrame
时
内存中字节的大小,我希望这是对处理这些数据的计算成本的一个不错的估计。我尝试过的一种方法是
在
没有列的情况下
缓存
DataFrame
,然后查看Spark中的Storage,然后取不同的内容。但是对于一个列很多的
DataFrame
来说,这是一个恼人而缓慢的练习
浏览 0
提问于2019-02-25
得票数 2
回答已采纳
2
回答
冲突的
PySpark
存储级别默认设置?
、
不明白为什么
缓存
的DFs (特别是第一个)
在
Spark中根据代码段显示不同的Storage Levelsprint(spark.version)df2.persist(StorageLevel.MEMORY_AND_DISK).count()D
浏览 2
提问于2019-07-07
得票数 1
1
回答
pyspark
数据管道使用中间结果
在
pyspark
中,我会对
dataframe
进行连续操作,并希望从中间结果中获得输出。它总是需要同样的时间,但我想知道它
是否
缓存
过任何东西?换一种方式问,使用中间结果的最佳实践是什么?
在
dd.compute(df.amount.max(), df.amount.min())中,它会找出需要
缓存
和计算的内容。
在
pyspark
中有没有类似的东西?在下面的例子中,当它到达print()
时
,它会执行3x吗?spark.re
浏览 1
提问于2019-08-12
得票数 1
回答已采纳
1
回答
使用spark sql的临时表
缓存
、
是否
缓存
了registerTempTable (createOrReplaceTempView with spark 2.+)注册的表?使用齐柏林飞艇( Zeppelin ),经过大量计算,我
在
scala代码中注册了一个
DataFrame
,然后
在
%
pyspark
中访问它,并进一步过滤它。 它会使用表的内存
缓存
版本吗?
浏览 9
提问于2016-08-31
得票数 22
回答已采纳
1
回答
在
pyspark
中
缓存
数据帧
、
我想更准确地了解
pyspark
中
dataframe
的方法
缓存
的用法。 当我运行df.cache()
时
,它返回一个数据帧。因此,如果我执行df2 = df.cache(),哪个数据帧
在
缓存
中?
浏览 8
提问于2017-12-05
得票数 17
回答已采纳
2
回答
在数据库环境中尝试合并或连接两个
pyspark
.sql.
dataframe
.
DataFrame
、
、
、
我
在
中有两个数据仓库。两种类型都是:
pyspark
.sql.
dataframe
.
DataFrame
result = pd.concat([df1, df2], axis=1) Error Message: TypeError: cannot concatenate object oftype "<class '
pyspark
.sql.
dataframe
.
浏览 8
提问于2020-02-06
得票数 0
回答已采纳
1
回答
如何在Scala中将
DataFrame
转换为DynamicFrame对象
、
、
我正在尝试将一些
pySpark
代码转换为Scala,以提高性能。
在
AWS (它使用Apache )中,会自动为您生成一个脚本,它通常使用DynamicFrame对象
加载
、转换和写入数据。但是,DynamicFrame类并不具有与
DataFrame
类相同的所有功能,有时您必须将其转换回
DataFrame
对象,反之亦然,以执行某些操作。下面是我如何在
DataFrame
中将DynamicFrame对象转换为
pySpark
对象: //
PyS
浏览 1
提问于2018-05-17
得票数 3
回答已采纳
1
回答
如何在Spark中加速大数据帧连接
、
、
我
在
Spark 2.4中有两个数据帧,它们的大小几乎相同。每个都有大约4000万条记录。一种是通过简单地从S3
加载
数据帧生成的,另一种是
加载
一堆数据帧并使用sparkSQL生成大型数据帧。然后我将这两个数据帧多次连接到多个数据帧中,并尝试将它们作为CSV写入S3……然而,我看到我的写入时间超过了30分钟,我不确定它
是否
正在重新评估数据帧,或者我
是否
需要更多CPU来完成此任务。
浏览 12
提问于2020-05-14
得票数 0
回答已采纳
1
回答
Databricks:如何将行的值转换为数组类型
、
假设我有下面的数据帧col1 a b c有什么想法吗?
浏览 16
提问于2019-11-07
得票数 0
1
回答
从带分区的S3读取RC文件
pyspark
2.0.0
、
、
、
、
是否
有一种方法可以将分区存储
在
S3中的RC文件
加载
到
pyspark
Dataframe
2.0.0中
浏览 0
提问于2017-01-05
得票数 1
1
回答
UnsupportedOperationException:无法评估表达式:.添加新列withColumn()和udf()
、
、
所以我有一个数据类型的df_src:下面是它的模式: |-- src_ip: string (nullabledf_src['hour'], df_src['minute']) /opt/spark-2.0.0-bin-hadoop2.7/python/
pyspar
浏览 0
提问于2016-10-15
得票数 0
1
回答
` `
pyspark
‘与` `
pyspark
’包
、
、
、
pyspark
mllib和
pyspark
ml包有什么区别?: 我发现的一个不同之处是,
pyspark
ml实现了
pyspark
.ml.tuning.CrossValidator,而
pyspark
在
没有转换类型的情况下,每个框架之间似乎没有互操作性,因为每个框架都包含不同的包结构。
浏览 4
提问于2017-04-05
得票数 18
回答已采纳
1
回答
启动
时
的Tomcat
缓存
我理解Tomcat将文件
缓存
到temp目录,但我不清楚这种
缓存
是如何工作的。我之所以问这个问题,是因为我正在编写一些Chef ServerSpec集成测试,并且需要确保一些文件是
在
启动
时
创建的,而无需手动创建它们。 我的问题是,Tomcat
在
启动服务器
时
是否
缓存
文件?如果不是,它需要什么来
缓存
文件?
浏览 0
提问于2019-07-08
得票数 0
回答已采纳
1
回答
Java8流操作
是否
被
缓存
?
、
、
、
taken 31 micro seconds 50000 findAny我们可以看到
第一次
运行和后续运行所花费的时间不同这
是否
意味着流操作被
缓存
?
是否
有为Java8中的流实现的内部
缓存
? 有时findAny返回不同的值,但是所花费的时间几乎等于后续的运行,而不是
第一次
运行。
浏览 2
提问于2016-10-17
得票数 2
回答已采纳
2
回答
如何使用SparkR访问使用
PySpark
创建的
DataFrame
?
、
、
我
在
Databricks上创建了一个
PySpark
DataFrame
。"sep", delimiter) \现在我想在SparkR中使用df1library('SparkR')sparkR无法使用或找到由
PySpark
Error in eval(parse(text = DATABRICKS_CURRENT_TEMP_CMD__)) : 如何使用
浏览 1
提问于2018-10-05
得票数 0
1
回答
如何在进行数据转换
时
减少迭代时间?
我有几个数据转换,它们
在
迭代时运行得很慢。| b | 2 |+-----------+-------+from
pyspark
.sqlinput_df): input_df (
pyspark</em
浏览 1
提问于2019-12-03
得票数 0
回答已采纳
1
回答
熊猫到
PySpark
会产生OOM错误而不是溢出到磁盘上
、
、
、
我有一个用例,在这个用例中,我想迭代地将数据
加载
到Pandas中,使用外部函数(即xgboost,
在
示例代码中没有显示)进行一些处理,然后将结果推到单个
PySpark
对象(RDD或DF)中。
在
将数据存储为RDD或
Dataframe
时
,我尝试让
PySpark
溢出到磁盘,同样,源是Pandas
DataFrame
。似乎什么都没有用,我一直在破坏Java驱动程序,无法
加载
数据。或者,我尝试
加载
我的数据而不使用基本的text
浏览 1
提问于2017-09-18
得票数 0
1
回答
如果您将
DataFrame
保存到磁盘,如果您在脚本中使用较低
DataFrame
,Spark
是否
会
加载
该数据?
、
、
、
、
如果您
加载
一些数据,计算一个
DataFrame
,将其写入磁盘,然后稍后使用
DataFrame
...假设它不是仍然
缓存
在内存中(假设没有足够的
缓存
),Spark
是否
足够聪明,可以从磁盘
加载
数据,而不是从原始数据重新计算
DataFrame
?'id').withColummn('double_total', 2 * joined.total) computed.write.parquet('data
浏览 19
提问于2019-07-01
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券