没有SQLContext的pyspark中的clearCache

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

考虑到SQLContext的pySpark documentation说“从Spark2.0开始，这将被SparkSession所取代。”如何在不使用SQLContext的情况下从内存缓存中删除所有缓存表？例如，其中spark是SparkSession，sc是sparkContext from pyspark.sql import SQLContext SQLContext(sc, spark).clearCache

浏览 20提问于2019-05-04得票数 3

回答已采纳

3回答

取消持久化(py)spark中的所有数据帧

、、、、

这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例，该示例演示了此行为。cache_test.py： from <em

浏览 9提问于2016-04-28得票数 39

回答已采纳

2回答

在通过toPandas()将其转换成熊猫数据后，是否有任何方法可以将丢弃

、、

我使用4GB大小的输入文本文件创建Spark。现在我的内存使用量约为13 GB。如何使我的计算速度更快、效率更高？#这里的df.cache()导致缓存花费了10分钟。我试图通过使用df.unpersist()和sqlContext.clearCache()来释放pyspark内存，但这没有帮助。注意:我主要使用的是电火花，因为它有效地使用cpu核心和熊猫只使用我的</

浏览 0提问于2019-08-14得票数 2

1回答

Spark:取消持久化我丢失了引用的RDDs

、

如何取消持久化在没有引用的MLlib模型中生成的RDD？我知道在pyspark中，你可以用sqlContext.clearCache()解压所有的数据帧，除了scala API中的RDDs之外，还有类似的东西吗？此外，有没有一种方法可以只取消一些RDDs的持久化，而不必取消所有RDDs的持久化？

浏览 2提问于2017-02-07得票数 6

回答已采纳

2回答

用PySpark读取拼花文件

、

我对火花公子很陌生，似乎什么都没有解决。请救人。我想看一看皮斯卡姆的拼花文件。我写了以下代码。from pyspark.sql import SQLContext 我得到了以下错误在deco(*a，**kw) 62 Py4JJavaError中，py4j.protocol.Py4JJa

浏览 0提问于2018-03-06得票数 1

2回答

读取多个json文件时出错Pyspark

、

我正在尝试将大约300个单独的json文件读取到pyspark中。但是一旦我使用了通配符，它就会出错：我已经尝试应用了以下代码：sc = SparkContext(appName='a

浏览 1提问于2019-07-25得票数 0

2回答

在我的Linux终端上运行一个脚本来初始化PySpark外壳(SparkVersion2.4.4)

、、、、

我在我的Linux计算机上使用PySpark。我的火花版本是2.4.4。sqlContext = SQLContext(sc) import pyspark.sql.functions as sqlfunc--我不想每次打开PySpa

浏览 2提问于2019-10-18得票数 0

回答已采纳

7回答

无模块名称pyspark错误

、

这是我正在学习的教程中的代码。我的同学用同样的代码没有得到这个错误： 3 5 sqlCon

浏览 8提问于2015-12-16得票数 22

1回答

使用pyspark将拼图文件(在亚马逊s3中)存储到spark数据框架中

、、、、

我正在尝试从我的s3存储桶中的特定文件夹读取数据。这些数据是拼图格式的。2021-04-19 但是，我希望将从我的s3存储桶中检索到的数据存储在spark数据帧中，而不是熊猫数据帧。我试过做(这是我自己的问题)，但似乎不能正常工作。我想知道是否有任何方法可以使用awswrangl

浏览 9提问于2021-06-10得票数 0

回答已采纳

1回答

使用Blaze访问Spark时出错

、、、

尝试用Blaze和我本地的Spark实例做一些相当简单的事情。将带有blaze的csv文件加载到()中，然后通过()使用blaze的Spark 1.4.0csv (simple.csv)simple_csv = bz.Data("simple.csv") carsimple

浏览 3提问于2015-06-18得票数 0

3回答

以正确的顺序获取下一个序列值

、、

我在oracle数据库中有一个函数，可以得到序列的下一个值。我还有一个下面的PySpark代码： QUERY = "SELECT SCHEMA.GET_NEXT_SEQ_VALUE FROM DUAL"sqlContext.clearCache() next_seq_value_df = sqlContext.read.format("jdbc").options(url=URL,

浏览 1提问于2021-07-29得票数 0

4回答

利用isin排除对火花放电数据的过滤

、、、

我试图获取列值不在列表中的dataframe中的所有行(因此通过排除进行过滤)。例如：,schema=('id'+ |

浏览 0提问于2017-01-21得票数 48

回答已采纳

1回答

与SparkContext相关的火花错误-无属性_jsc

、

我在这个问题上也看到过类似的问题，但没有什么能解决我的问题。= SQLContext(sc) self._jsc AttributeError: type object 'SparkContext' has no attr

浏览 0提问于2019-01-04得票数 1

回答已采纳

5回答

用电火花读取csv

、、、、

我是新来的火花。我正试着用电火花读取csv文件。我提到了，和更多。我试着用两种方式来解读：from pyspark.sql import SparkSessionfrom pyspark.confsc = SparkContext.getOrCreate()df.sh

浏览 6提问于2018-01-03得票数 1

5回答

如何使鲨鱼/火花清除缓存？

、、、

当我运行鲨鱼查询时，内存会被囤积在主内存中--这是我的最高命令结果。现在，清除缓存的唯一方法是重新启动机器。以前有没有人面对过这个问题？它是一些配置问题还是已知的火花/鲨鱼问题？

浏览 7提问于2013-12-11得票数 28

回答已采纳

1回答

在星火中加载多个文件时出现的问题

、、、

parquet')但是，当我运行sql查询时，例如：它似乎只查看同一文件中的最后一个元素这是否是一种预期的行为，如果是的话，有什么办法可以克服这种情况吗？fnames = !df = spark.read.parquet(fname) df = df.union(spark.read.parquet(

浏览 0提问于2019-07-16得票数 2

1回答

用不同的头序追加多个CSV文件

、、、

我有一个包含CSV文件的目录，这些文件具有相同的列，但顺序不同。我想将它们附加到一个CSV文件中，但是当使用pyspark使用以下代码时，我会得到csv，但是里面有混合数据(也就是说，它没有正确地排序列的顺序)。from pyspark import SparkContext from pyspark.sql.functions importc

浏览 1提问于2018-02-21得票数 0

1回答

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

、、、

我正在尝试创建一些POC代码，演示如何从PySpark调用Scala函数，结果是一个PySpark.RDD。以下是Scala端的代码： } 这就是我在PySpark端访问它所做的事情： >>> foo = sc._jsc.sc

浏览 18提问于2017-05-05得票数 0

回答已采纳

1回答

将pandas数据帧转换为spark数据帧时收到错误

、、

由于在spark中没有对读取excel文件的开箱即用的支持，所以我首先将excel文件读取到pandas数据帧中，然后尝试将pandas数据帧转换为spark数据帧，但我得到了以下错误(我使用spark1.5.1)from pandas import ExcelFilefrom pyspark.sqlimport SQLContext from

浏览 0提问于2016-01-15得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云