我正在尝试从mongo数据库中读取一些文档,并在spark中解析模式。到目前为止,我已经成功地从mongo读取并使用由case类定义的模式将结果mongoRDD转换为DataFrame,但是有一种情况是,mongo集合有一个包含多个数据类型的字段(字符串数组和嵌套对象数组)。到目前为止,我只是将字段解析为一个字符串,然后使用spark的from_json()来解析新模式中的嵌套对象,但是我发现当一个字段不符合模式时,它返回模式中所有字段的null -而不仅仅是不符合的字段。是否有一种方法来解析这一点,以便只有与模式不匹配的字段才会返回null?
//creating mongo test da
有两个表格,如学生和班级:
SELECT student.name, class.subj
FROM student
INNER JOIN class
ON student.class_id = class.class_id;
在sql中是可以的,但是在mongodb中,我知道MongoDB不支持联接,但是我不想放入一个集合,我想放入两个集合并查询它并返回一个数据。我想这样做的原因,请看
那我该怎么办?