当我在Pyspark上工作时,当我使用任何ML算法时,我得到Java堆空间错误。我有200MB的数据,我使用的计算机是32GBRAM。我想知道问题可能如下所示。你能帮帮我吗?我可以计算25行,但是当我尝试计算超过25000行时,我得到Java堆空间错误。sqlContext.createDataFrame(data_CSV, schema=mySchema)
from pyspark<
Google Colab research是测试python、数据挖掘和深度学习的一个很好的工具,我想基于pyspark在它上面运行spark作业,当我在Google Colab Pyspark脚本中从S3读取时,我得到了错误:
/usr/local/lib/python3.6/dist-packages/py4j/protocol.py in get_return_value(answer, gateway_client, target_id, nam