我写到一个webhdfs路径,由Kerberos保护,来自Spark。它的一部分实际上是工作的,但当将拼花文件写入(web)hdfs位置时,它会崩溃。
身份验证和授权工作以及脚本创建了存储partquet文件所需的路径结构,但是当实际写入开始时,OutputStreams开始失败。
星火配置看起来像这样(我让它更详细了一点):
val hadoopConfig = new Configuration()
hadoopConfig.set(FS_DEFAULT_NAME_KEY, "webhdfs://hadoop-host:14000/webhdfs/v1")
ha
当我将pyspark保存为parquet文件时,我得到了以下错误:
Py4JJavaError: An error occurred while calling o50.parquet.
: org.apache.spark.SparkException: Job aborted.
at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:224)
at org.apache.spark.sql.execution.dataso
在AWS EMR集群上,我尝试使用Pyspark将查询结果写入到parquet,但遇到以下错误: Caused by: java.lang.RuntimeException: Parquet record is malformed: empty fields are illegal, the field should be ommited completely instead
at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.write(DataWritableWriter.java:64)
at