我用python2.7写了一个脚本,用pyspark把csv转换成拼花和其他东西。当我在较小的数据上运行我的脚本时,它工作得很好,但当我在较大的数据(250 of )上运行时,我崩溃了以下错误-总分配超过95.00% (960,285,889字节)的堆内存。我该如何解决这个问题?部分代码:导入的库:import pyspark as ps from pyspark.sql.types import StructType, StructField
当我尝试创建一个简单的数据集并将其打印出来时,我得到了以下错误消息。from pyspark import SparkContextfrom pyspark.sql import SparkSession ("%d.cannot run with different minor versions.Please c