我有一个带有动态资源分配的小型spark独立集群,它使用aws作为存储,然后我启动一个spark s3,创建一个从s3存储桶中779.3KB的csv文件加载数据的hive外部表,当我执行sql "selectcount(1) from sales;“时,sparksql作业中恰好有798009个任务,就像每个字节的任务一样。"spark.de
当我运行Spark作业(scala脚本)时,我得到以下错误:
16/03/08 10:22:03 INFO DAGScheduler:作业0失败:在JsonRDD.scala:57接受了15.051150s的异常:在线程"main“org.apache.spark.SparkException:由于阶段失败而中止的作业:阶段1.0中的任务1失败1次,最近的失败:在阶段1.0中丢失<em