pyspark dataframe是否在第一次加载时缓存

文章/答案/技术大牛

发布

1回答

、

我有一个通过spark sql查询从hive datastore加载的pyspark dataframe。我知道只有当我在数据帧上调用show()这样的操作时，查询才会执行。如果我在数据帧上多次调用一个操作，查询是否会被重新执行，或者是否可以缓存它？

浏览 26提问于2018-01-04得票数 0

回答已采纳

3回答

这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例，该示例演示了此行为。cache_test.py： from pyspark import SparkContext, H

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

如何估计星火DataFrame中每列的大小(以字节为单位)？

、

我有一个非常大的星火DataFrame和许多列，我想作出一个明智的判断是否保持在我的管道中，部分取决于它们有多大。所谓“有多大”，我指的是缓存这个DataFrame时内存中字节的大小，我希望这是对处理这些数据的计算成本的一个不错的估计。我尝试过的一种方法是在没有列的情况下缓存DataFrame，然后查看Spark中的Storage，然后取不同的内容。但是对于一个列很多的DataFrame来说，这是一个恼人而缓慢的练习

浏览 0提问于2019-02-25得票数 2

回答已采纳

2回答

冲突的PySpark存储级别默认设置？

、

不明白为什么缓存的DFs (特别是第一个)在Spark中根据代码段显示不同的Storage Levelsprint(spark.version)df2.persist(StorageLevel.MEMORY_AND_DISK).count()D

浏览 2提问于2019-07-07得票数 1

1回答

pyspark数据管道使用中间结果

在pyspark中，我会对dataframe进行连续操作，并希望从中间结果中获得输出。它总是需要同样的时间，但我想知道它是否缓存过任何东西？换一种方式问，使用中间结果的最佳实践是什么？在 dd.compute(df.amount.max(), df.amount.min())中，它会找出需要缓存和计算的内容。在pyspark中有没有类似的东西？在下面的例子中，当它到达print()时，它会执行3x吗？spark.re

浏览 1提问于2019-08-12得票数 1

回答已采纳

1回答

使用spark sql的临时表缓存

、

是否缓存了registerTempTable (createOrReplaceTempView with spark 2.+)注册的表？使用齐柏林飞艇( Zeppelin )，经过大量计算，我在scala代码中注册了一个DataFrame，然后在%pyspark中访问它，并进一步过滤它。它会使用表的内存缓存版本吗？

浏览 9提问于2016-08-31得票数 22

回答已采纳

1回答

在pyspark中缓存数据帧

、

我想更准确地了解pyspark中dataframe的方法缓存的用法。当我运行df.cache()时，它返回一个数据帧。因此，如果我执行df2 = df.cache()，哪个数据帧在缓存中？

浏览 8提问于2017-12-05得票数 17

回答已采纳

2回答

在数据库环境中尝试合并或连接两个pyspark.sql.dataframe.DataFrame

、、、

我在中有两个数据仓库。两种类型都是: pyspark.sql.dataframe.DataFrameresult = pd.concat([df1, df2], axis=1) Error Message: TypeError: cannot concatenate object oftype "<class 'pyspark.sql.dataframe.

浏览 8提问于2020-02-06得票数 0

回答已采纳

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对象： // PyS

浏览 1提问于2018-05-17得票数 3

回答已采纳

1回答

如何在Spark中加速大数据帧连接

、、

我在Spark 2.4中有两个数据帧，它们的大小几乎相同。每个都有大约4000万条记录。一种是通过简单地从S3加载数据帧生成的，另一种是加载一堆数据帧并使用sparkSQL生成大型数据帧。然后我将这两个数据帧多次连接到多个数据帧中，并尝试将它们作为CSV写入S3……然而，我看到我的写入时间超过了30分钟，我不确定它是否正在重新评估数据帧，或者我是否需要更多CPU来完成此任务。

浏览 12提问于2020-05-14得票数 0

回答已采纳

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

1回答

从带分区的S3读取RC文件pyspark* 2.0.0*

、、、、

是否有一种方法可以将分区存储在S3中的RC文件加载到pyspark Dataframe 2.0.0中

浏览 0提问于2017-01-05得票数 1

1回答

UnsupportedOperationException:无法评估表达式：.添加新列withColumn()和udf()

、、

所以我有一个数据类型的df_src：下面是它的模式： |-- src_ip: string (nullabledf_src['hour'], df_src['minute']) /opt/spark-2.0.0-bin-hadoop2.7/python/pyspar

浏览 0提问于2016-10-15得票数 0

1回答

` `pyspark‘与` `pyspark’包

、、、

pyspark mllib和pyspark ml包有什么区别？：我发现的一个不同之处是，pyspark ml实现了pyspark.ml.tuning.CrossValidator，而pyspark在没有转换类型的情况下，每个框架之间似乎没有互操作性，因为每个框架都包含不同的包结构。

浏览 4提问于2017-04-05得票数 18

回答已采纳

1回答

启动时的Tomcat缓存

我理解Tomcat将文件缓存到temp目录，但我不清楚这种缓存是如何工作的。我之所以问这个问题，是因为我正在编写一些Chef ServerSpec集成测试，并且需要确保一些文件是在启动时创建的，而无需手动创建它们。我的问题是，Tomcat在启动服务器时是否缓存文件？如果不是，它需要什么来缓存文件？

浏览 0提问于2019-07-08得票数 0

回答已采纳

1回答

Java8流操作是否被缓存？

、、、

taken 31 micro seconds 50000 findAny我们可以看到第一次运行和后续运行所花费的时间不同这是否意味着流操作被缓存？是否有为Java8中的流实现的内部缓存？有时findAny返回不同的值，但是所花费的时间几乎等于后续的运行，而不是第一次运行。

浏览 2提问于2016-10-17得票数 2

回答已采纳

2回答

如何使用SparkR访问使用PySpark创建的DataFrame？

、、

我在Databricks上创建了一个PySpark DataFrame。"sep", delimiter) \现在我想在SparkR中使用df1library('SparkR')sparkR无法使用或找到由PySparkError in eval(parse(text = DATABRICKS_CURRENT_TEMP_CMD__)) : 如何使用

浏览 1提问于2018-10-05得票数 0

1回答

如何在进行数据转换时减少迭代时间？

我有几个数据转换，它们在迭代时运行得很慢。| b | 2 |+-----------+-------+from pyspark.sqlinput_df): input_df (pyspark</em

浏览 1提问于2019-12-03得票数 0

回答已采纳

1回答

熊猫到PySpark会产生OOM错误而不是溢出到磁盘上

、、、

我有一个用例，在这个用例中，我想迭代地将数据加载到Pandas中，使用外部函数(即xgboost，在示例代码中没有显示)进行一些处理，然后将结果推到单个PySpark对象(RDD或DF)中。在将数据存储为RDD或Dataframe时，我尝试让PySpark溢出到磁盘，同样，源是Pandas DataFrame。似乎什么都没有用，我一直在破坏Java驱动程序，无法加载数据。或者，我尝试加载我的数据而不使用基本的text

浏览 1提问于2017-09-18得票数 0

1回答

如果您将DataFrame保存到磁盘，如果您在脚本中使用较低DataFrame，Spark是否会加载该数据？

、、、、

如果您加载一些数据，计算一个DataFrame，将其写入磁盘，然后稍后使用DataFrame ...假设它不是仍然缓存在内存中(假设没有足够的缓存)，Spark是否足够聪明，可以从磁盘加载数据，而不是从原始数据重新计算DataFrame？'id').withColummn('double_total', 2 * joined.total) computed.write.parquet('data

浏览 19提问于2019-07-01得票数 2

回答已采纳

点击加载更多