在AWS Glue中使用Spark fileoutputcommitter.algorithm.version = 2

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (71)

我无法弄清楚这一点,但我正在尝试使用AWS Glue的直接输出提交器:

spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2

是否可以将此配置与AWS Glue一起使用?

提问于
用户回答回答于

胶水使用火花上下文,您可以将hadoop配置设置为aws胶水。因为内部动态帧是一种数据帧。

sc._jsc.hadoopConfiguration().set("mykey","myvalue")

我认为你需要像这样添加对应类

sc._jsc.hadoopConfiguration().set("mapred.output.committer.class", "org.apache.hadoop.mapred.FileOutputCommitter")

示例代码段:

 sc = SparkContext()

    sc._jsc.hadoopConfiguration().set("mapreduce.fileoutputcommitter.algorithm.version",2)

    glueContext = GlueContext(sc)
    spark = glueContext.spark_session

证明该配置存在....

在python中调试:

sc._conf.getAll() // print this

在scala中调试:

sc.getConf.getAll.foreach(println)

扫码关注云+社区

领取腾讯云代金券