Pyspark:保存sql.dataframe时出现内存错误

文章/答案/技术大牛

发布

1回答

我有一个要另存为.csv的pyspark.sql.DataFrame。这就是我正在做的事情。df.toPandas().to_csv('myDF.csv') 是否可以将数据划分为不同的区块，并将它们保存为单独的文件？

浏览 10提问于2020-02-07得票数 1

1回答

将熊猫数据转换为pyspark dataframe时出现内存不足错误

、、、、

我把它保存为一个泡菜文件，文件是5.8GB。我正在尝试使用spark_X = spark.createDataFrame(X)将熊猫数据转换为pyspark，但是仍然会出现一个“内存不足”错误。错误片段是 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.readRDDFromFile. : java.lang.OutOfMemoryError: Java heap

浏览 1提问于2022-08-12得票数 0

回答已采纳

3回答

一个大的numpy数组来激发数据

、、、、

我还试图直接将numpy数组转换为rdd，但我得到了“内存不足”错误。在单机中，我的工作可以很好地处理这个numpy数组。

浏览 8提问于2017-10-24得票数 4

回答已采纳

2回答

星星之火- UbuntuVM - Java环境内存不足

、、

/bin/ pyspark“，该命令应该会触发pyspark shell。但我收到了如下错误消息： [ OpenJDK 64位服务器VM警告: INFO: os：：commit_memory(0x000000c5550000,715849728，0)失败；os：：commit_memory=“无法分配内存”(errno=12) --内存不足，无法继续。本机内存分配(malloc)未能为提交保留内存分配715849728字节。包含更多信息的错

浏览 4提问于2015-10-20得票数 1

2回答

在zeppelin scala中读取大型org.apache.thrift.transport.TTransportException文件时出现JSON错误

、、、

incubator-zeppelin-master/data/ai/weather.json"我收到以下错误

浏览 0提问于2016-04-25得票数 7

1回答

数据库中的Spark set驱动程序内存配置

、、

我的驱动节点和工作节点规格是: 14.0 GB内存，4核，0.75dBU Standard_DS3_v2。spark.conf.get("spark.driver.memory") 来获取驱动程序的内存。但是我的notebook cell失败了，并出现错误。java.util.

浏览 14提问于2020-02-18得票数 0

回答已采纳

3回答

你好，有人使用pyspark将hana数据卸载到hive中吗？？我面临着海量数据的内存问题。请给我建议

、

是否有人使用pyspark将hana数据卸载到hive？？我面临着海量数据的内存问题。请提个建议。我在较小的数据集上尝试，它是有效的。在巨型上，它给了JDBCDriverException:无法分配足够的内存。

浏览 2提问于2020-08-05得票数 1

2回答

星火StorageLevel在本地模式不工作？

、

局部模式运行 from pyspark import SparkConf, SparkContext rdd = sc.textFile('file:///myBigFil

浏览 2提问于2019-01-31得票数 0

2回答

Pyspark: ValueError

我有一个PySpark RDDs的字典，正在尝试将它们转换为数据帧，将它们保存为变量，然后连接它们。当我尝试将其中一个RDDs转换为数据帧时，出现以下错误：line 986, in _verify_type "length of fields (%d)" % (

浏览 1提问于2015-07-08得票数 0

1回答

星星之火:耗尽java堆空间: java.lang.OutOfMemoryError: Java堆空间

、、、

我使用20个执行器，驱动内存15G，执行器内存4G。在使用ALS.trainImplicit训练模型时，我正在从内存错误中获取java堆空间。/pyspark/mllib/recommendation.py", line 314, in trainImplicit File "/usr/local/spark/python/lib/pyspa

浏览 1提问于2017-04-26得票数 0

1回答

在PySpark中保存CSV时出现找不到文件错误

、、

我尝试将PySpark中的数据帧从Jupyter Notebook保存到Windows上的CSV，但收到以下错误： java.lang.RuntimeException: java.io.FileNotFoundException

浏览 0提问于2021-10-04得票数 0

2回答

在数据库上运行时将PySpark标准输出和标准错误日志保存到云对象存储中

、、、、

我正在标准databricks集群上运行我的PySpark数据管道代码。我需要将所有Python/PySpark标准输出和标准错误消息保存到Azure BLOB帐户中的文件中。当我在本地运行Python代码时，我可以看到所有的消息，包括终端中的错误，并将它们保存到日志文件中。对于PySpark数据管道代码，如何使用Databricks和Azure BLOB实现类似的功能呢？

浏览 14提问于2022-07-05得票数 0

1回答

PySpark :将字典python输出转换为RDD /或其他可保存(HDFS)格式

、、、、

我是Spark / Pyspark / HDFS的新手，我正在尝试用以下代码直接从HDFS加载一个.json文件：dictionary_output.saveAsTextFile('/path/') 不适用于字典。我也尝试了“并行化”字典，但是输出文件只包含键而不包含值。所以我的问题是:什么是正确的命令来将字典输出格式化为'

浏览 2提问于2017-05-16得票数 1

1回答

如何确定星火应用程序的洗牌分区？

、、、

我是新来的火花，所以我跟随这个来自sparkbyexamples.com的令人惊奇的教程，在阅读的时候我发现了这个部分：基于您的数据集大小，多个核心和内存PySpark洗牌可能对您的工作有利或有害当您处理较少的数据量时，您通常应该减少洗牌分区，否则您将得到许多分区文件，每个分区中的记录数会更少。这导致运行了许多任务，需要处理的数据较少。另一方面，当您有太多的数据，而分区数量较少时，会导致运行时间较长的任务减少，而且有时您可能也会避免内存错误。获得正确大小的洗牌分区总是很棘手的，并

浏览 1提问于2021-05-22得票数 3

2回答

保存大文件时出现内存不足错误

、、、

我正在尝试在后台线程将另一个应用程序获取的文件保存到内部目录中，方法如下： public static File saveUri(Uri uri,File file, WeakReference<ContextfileOutputStream.close(); return file ; Executors.newSingleThr

浏览 38提问于2021-01-20得票数 2

回答已采纳

1回答

YARN不能识别增加的'yarn.scheduler.maximum-allocation-mb‘和’YARN.NODEMASGEAGER.resource.memory-mb‘值

、、、、

我正在使用一个停靠的pyspark集群，它利用了纱线。为了提高数据处理管道的效率，我想增加分配给pyspark执行器和驱动程序的内存量。这是通过将以下两个键、值对添加到REST post请求来完成的，该请求被发送到Livy："driverMemory": "20g" "executorMemory": "56g" 这样做会导致以下错误，我在Livy的日志中发现了这个错误：java.lang.IllegalArgumentExc

浏览 54提问于2020-09-30得票数 4

回答已采纳

1回答

运行Pyspark时出现多个错误

、

我在外部服务器上运行pyspark时遇到问题。运行pyspark会导致多个错误，而我似乎无法确定如何修复它们。这是打印输出：Python 3.6.0 |Anaconda 4.3.1 (64-bit)| (default, Dec 23 2016,_jconf) File "/usr/local/spark/spark/python/pyspark&#x

浏览 0提问于2017-05-27得票数 1

4回答

教程中的多个SparkContexts错误

、

我正在尝试运行非常基本的Spark+Python pyspark教程--参见。当我尝试初始化一个新SparkContext时，sc = SparkContext("local[4]", "test")ValueError: Cannot run multiple SparkContexts at once 我想知道以前运行示例代码的尝试是否将一些未清除的内容加载到内存中。是否有一

浏览 7提问于2014-04-24得票数 44

回答已采纳

1回答

Python2.7.x中的Pyspark导入错误

、、

尝试使用Pyspark2.0.2-hadoop2.7在与Python2.7.x一起使用时出现错误import os from pysparkimport Spark

浏览 0提问于2016-11-24得票数 0

1回答

GCP节点中没有启动新SparkSession的资源

、、、、

我正在处理一个用例，在这个用例中，我必须处理大量数据(多个表)，并试图将其作为批处理作业提交给Dataproc集群(PySpark)。我的代码看起来像这样from pyspark.sql import SQLContext 为什么在关闭

浏览 4提问于2020-06-20得票数 1

点击加载更多