当我试图使用选项 replace document false从spark到mongo编写大量文档时。我在写作时得到以下例外:-
org.apache.spark.SparkException: Job aborted due to stage failure: Task 28 in stage 18.0 failed 4 times, most recent failure: Lost task 28.3 in stage 18.0 (TID 275, 10.80.102.83, executor 2): com.mongodb.MongoBulkWriteException: Bulk write operation error on server 10.80.100.73:27017. Write errors: [BulkWriteError{index=0, code=9, message=''$set' is empty. You must specify a field like so: {$set: {<field>: ...}}', details={ }}].环境
mongo火花连接器版本:- 2.2.2
火花version:-2.3.1
编程language:-java
发布于 2018-11-02 13:02:45
在处理星星之火时,您需要尝试的事情之一是探索Dataframe (Dataframe中可能有一些不允许整个操作通过的值)。
正如例外情况所示,选项在写配置中的“替换文档假”内部调用mongo的$set方法(Dataframe中每一行的)。
$set 方法不将null作为参数,这就是火花写入操作每当遇到空值时失败的原因。
解决方案:-在写入mongo之前从Dataframe中删除空值
    dataFrame.na().drop()https://stackoverflow.com/questions/53057901
复制相似问题