我正在尝试用Spark从亚马逊网络服务的S3存储桶中读取CSV文件,目前正在通过Jupyter笔记本进行读取。在为spark设置亚马逊网络服务S3配置后,我在尝试读取CSV时遇到以下错误: Py4JJavaError: An error occurred while calling SOMERANDOMNAME.csv.
: com.amazon
我读取,然后将sales.csv复制到主节点的本地(而不是HDFS),最后执行以下操作但是它返回以下错误,即file::调用Py4JJavaError时出错:ip-17x-xx-xx-xxx.ap-northeast-1.compute.internal)::由于阶段失败而中止作业:阶段3.0中的任务0失败4次,最近的失败所有的端口都打开了
No
Google Colab research是测试python、数据挖掘和深度学习的一个很好的工具,我想基于pyspark在它上面运行spark作业,当我在Google Colab Pyspark脚本中从S3读取时,我得到了错误:
/usr/local/lib/python3.6/dist-packages/py4j/protocol.py in get_return_value(answer, gateway_clie