我想分析一个托管在Mongo中的数据库。因此,我希望将mongo URI连接到pandas,这样我就可以在我的Jupyter Lab环境中自由地运行我的所有python查询。让我们假设这是我的mongo连接: “"mongodb+srv://test:test12345@cluster0-ze0tw.mongodb.net/databasetest?""" A util for making a connection to mongo """
我希望这样做,它从MongoDB读取数据(也可以使用其他DB ),然后将输出转储到DB,然后可以从我们的系统中选择输出。我还没有弄清楚如何将数据从DB导入到IndexedDataSet。此外,我还读过关于RDD格式的文章,但仍然不知道如何将json数据转换为RowSimilarity代码可以使用的RDD。tl;dr:如何转换MongoDB数据,使其能够被mahout/火花行相似性处理?
E