腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4107)
视频
沙龙
1
回答
Spark
df.cache
()
导致
org.apache.spark
.memory.SparkOutOfMemoryError
python
、
apache-spark
、
pyspark
我遇到了这个问题,一切都很好,但当我使用
df.cache
()时,它会
导致
org.apache.spark
.memory.SparkOutOfMemoryError问题。 有没有人有过类似的问题?以下是
导致
该问题的代码行:
df.cache
() *df.columns,[2021-04-17 08:55:13,242] {base_task
浏览 368
提问于2021-04-17
得票数 0
1
回答
交叉连接的结果是“设备上没有空间”
amazon-web-services
、
apache-spark
、
pyspark
Dataframe1记录计数= 115580 由:
org.apache.s
浏览 14
提问于2022-08-02
得票数 0
1
回答
我应该缓存还是不缓存统一的数据帧?
scala
、
dataframe
、
apache-spark
、
caching
我不熟悉
Spark
中的缓存。 我需要在一个循环中做多个DF联合。每个联合增加几百万行。我应该在每个联合后
df.cache
我的结果吗?Database4", "Database5", "Database6", "Database7", "Database8", "Database9", "Database10") var df = getDF(
spark
, DB_List(0)) // this
浏览 15
提问于2019-09-11
得票数 0
回答已采纳
2
回答
在通过toPandas()将其转换成熊猫数据后,是否有任何方法可以将丢弃
pandas
、
apache-spark
、
pyspark
我使用4GB大小的输入文本文件创建
Spark
。然后使用如下条件:df_pd = df.where(df.column1=='#这里的
df.cache
()
导致
缓存花费了10分钟。 我试图通过使用df.unpersist()和sqlContext.clearCache()来释放pyspark内存,但这没有帮助。
浏览 0
提问于2019-08-14
得票数 2
3
回答
取消持久化(py)
spark
中的所有数据帧
python
、
caching
、
apache-spark
、
pyspark
、
apache-spark-sql
在我的应用程序中,这会
导致
在扩展时出现内存问题。尽管在我当前的测试中,给定的数据帧最大大约为100MB,但中间结果的累积大小超出了executor上分配的内存。') .format('com.databricks.
spark
.csv') )
df.cache
(
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
1
回答
为什么在
spark
sql中缓存后不能调用show方法?
pyspark
、
apache-spark-sql
但是我发现在调用
df.cache
()之后,我将无法调用df.show()。------+---------+--------+--------+-------------+--------+-----+ >>>
df.cache
: Traceback (most recent call last): File "/opt/
spark
-1.6.0-bin-hadoop2.6/python/li
浏览 0
提问于2016-05-16
得票数 2
1
回答
为什么每当使用缓存(持久化)时,火花查询计划就会显示更多的分区
apache-spark
、
pyspark
给定具有两个核心的单个工作人员星火库集群上的PySpark代码:df=
df.cache
() 在这种情况下,我特别想知道缓存对规划的影响。使用缓存: 没有缓存:
df.cache
似乎对AQE(Adaptive )产生
浏览 3
提问于2022-01-26
得票数 0
1
回答
如果我们缓存一个DataSet,然后将相同的DataSet缓存为一个表,那么火花会缓存数据两次吗?
java
、
apache-spark
、
rdd
、
apache-spark-dataset
DataSet<Row> dataSet = sqlContext.sql("some query");dataset.cache(); // cache 1所以,这里我的问题是只会触发一次dataSet缓存,或者会有两个相同dataSet的副本,一个是dataSet(缓存1),另一个是表(缓存2)。
浏览 1
提问于2018-04-23
得票数 1
回答已采纳
1
回答
与看似等价的PySpark转换实现不同的结果
apache-spark
、
pyspark
、
apache-spark-sql
我有一组
spark
dataframe转换,它给出了一个内存不足的错误,并且在一个不同的实现成功运行时,它有一个混乱的sql查询计划。f3' : [1,0,1,0,1,0],bil = pd.DataFrame(diction)df =
spark
.createDataFrame(bil)zdf = df tempdf = zdf.select
浏览 22
提问于2021-01-31
得票数 0
1
回答
Databricks激发了向许多接收器写入结构化流的最佳实践?
apache-spark
、
pyspark
、
apache-kafka
、
databricks
、
spark-structured-streaming
我正在使用databricks
spark
3.x,并且我正在读取大量的流(100+),并且每个流都有自己的契约,并且需要写到它自己的增量/parquet/sql/任何表中。_jdf.sparkSession().sql(sql)for topic in topics: .readStream .format.start()) 我还试图只创建一个流,进行大量过滤,但即使在我将单个消息推送到单个主题的测试环境中,性能也非常糟糕: def batchproce
浏览 25
提问于2020-10-25
得票数 1
1
回答
PySpark:我需要重新缓存DataFrame吗?
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-dataframe
假设我有一个数据帧:df = sqlContext.createDataFrame(rdd)我添加了一列 df = df.withColumn那么,我是否需要重新cache()数据帧,或者
Spark
会自动为我执行此操作?
浏览 14
提问于2017-02-05
得票数 8
1
回答
Spark
persist视图
sql
、
scala
、
apache-spark
、
persist
我正在尝试持久化一个临时视图,目的是通过sql再次查询它:df.createOrReplaceTempView("xxx")
df.cache
() // or
spark
.sqlContext.cacheTable("xxx")
浏览 0
提问于2017-05-18
得票数 5
1
回答
如何为火花中的多个数据文件生成相同的UUID?
python
、
pyspark
、
azure-databricks
我有一个从文件中读取的df然后我给它一个UUID列df3 =
spark
.sql("select UUID from view") 所有3个数据文件都有不同的UUID,是否有办法在每个数据文件中保持它们相同
浏览 1
提问于2021-05-14
得票数 1
回答已采纳
2
回答
火花蒸读Kafka并在Java中应用
Spark
聚合
java
、
apache-spark
、
apache-kafka
、
apache-spark-sql
、
spark-streaming
我有一个
Spark
作业,它从数据库读取数据并应用
Spark
聚合。df = MongoSpark.read(sqlContext).options(readOptions).load();
df.cache
();现在,我想创建另一个作业,通过
Spark
流读取Kafka的消息,然后通过
Spark
应用相同的聚合。因此,我的问题是,
浏览 3
提问于2017-05-11
得票数 0
1
回答
spark
persisting ()(然后是action)真的持久化吗?
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
、
persistence
temp_tab_name = "mytablename"; xmemory here, DAG evaluated, no going back to "select..." whenever referred to
spark
.sql
浏览 1
提问于2019-04-24
得票数 1
1
回答
是否在Apache中评估“未持久化”懒惰?
apache-spark
、
pyspark
在
spark
中,cache是延迟计算的,直到调用一个操作为止。同样的懒惰评估也适用于unpersist吗?
浏览 0
提问于2019-07-01
得票数 0
回答已采纳
1
回答
带多行选项的带有多字符分隔符的
SPARK
-Read文件
scala
、
apache-spark
如何在
spark
3.0.1中读取带有多行选项的多字符分隔符的文件?Test1 company||1st street||city1Test3 company||"3rd street"||city3
spark
.read
浏览 20
提问于2021-04-26
得票数 1
回答已采纳
2
回答
在databricks中,从大数据仓库或考拉数据库返回一行的最快方法是什么?
dataframe
、
apache-spark
、
pyspark
、
databricks
、
spark-koalas
我试图打印/显示这个大数据的1-5行,但是由于
spark
的惰性评估特性,所有的打印命令都会启动6-12个火花作业,然后永远运行,然后集群进入不可用的状态,然后什么也不会发生。mdf.head() 还尝试将其转换为火花数据格式,然后尝试: df.show
浏览 1
提问于2020-11-10
得票数 0
1
回答
删除csv文件中的常量列
scala
、
apache-spark
、
apache-spark-sql
我想删除数据帧中的常量列,这里是我所做的,但我看到它花费了很多时间,特别是在将数据帧写入csv文件时,请帮助优化代码以减少时间val df =
spark
.read.option("inferSchema", "true").option
浏览 0
提问于2017-03-21
得票数 0
2
回答
截断表后缓存的数据刷新
apache-spark
、
apache-spark-sql
以下是几个步骤:df: org.apache.
spark
.sql.DataFrame = [num: int]scala>
df.cache
res14: Array[org.apache.
spark
.sql.Row]= Array([10], [10]) res15: org.apache.<e
浏览 0
提问于2018-05-15
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark从Kafka 读数并发问题
Spark Streaming和Kafka集成深入浅出
SparkSQL在有赞大数据的实践
01 初识 Spark 你应该知道的
Spark提交参数说明和常见优化
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券