使用Spark，有没有办法批量取消Mongo文档中的字段？_有没有办法知道文档中的哪个mongoDB字段是最后更新的？_如何使用mongo引擎从包含某个字段的集合中获取文档 - 腾讯云开发者社区

mongodb、scala、apache-spark

我有一个scala Spark应用程序，在将更新的数据加载到集合之前，我想取消设置Mongo集合中所有文档的字段。假设我有一个这样的数据源，我想从所有文档中删除“排名”字段(有些文档可能有这个字段，有些文档可能没有)。中有一个unset函数，但我在mongo spark connector中没

浏览 35提问于2021-07-24得票数 0

1回答

如何使用Mongo-Hadoop连接器删除文档(记录)

mongodb、hadoop、apache-spark、apache-spark-sql、mongodb-hadoop

我正在使用Mongo-Hadoop连接器来处理Spark和MongoDB。我想从MongoDB中删除RDD中的文档，看起来有一个MongoUpdateWritable来支持文档更新。有没有办法用Mongo-Hadoop连接器删除？谢谢

浏览 2提问于2016-09-14得票数 3

4回答

Spark scala使用spark-mongo连接器升级

mongodb、scala、apache-spark

有没有办法根据dataframe中的某个字段，用spark-mongo连接器来更新Mongo Collection？

浏览 54提问于2017-08-04得票数 2

回答已采纳

1回答

使用C#将多个文档插入Mongodb的最快方法

c#、mongodb

我需要创建一个检查C#列表的脚本，然后创建并插入大约320,000个mongodb文档。目前，我使用foreach循环创建表示mongo文档的C#类，将文档添加到批处理中，当批处理大小达到99999时，将批处理插入数据库。尽管使用了批量插入，但我的脚本需要大约4个小时才能完成，这太慢了。batchsize = 0;

浏览 16提问于2019-01-20得票数 2

2回答

Py2neo中的批量插入

neo4j、py2neo、mongo-connector

我正在为mongo-connector编写一个自定义文档管理器，以便将mongodb文档复制到neo4j。在这里，我想创建批量关系。我使用的是py2ne2020.0。似乎在以前的版本中有一些选项，但在这个版本中没有。有没有办法在py2neo中创建批量节点和关系

浏览 85提问于2020-12-19得票数 1

回答已采纳

1回答

Mongo流星将ObjectID变成普通物体

node.js、mongodb、meteor、bulkinsert

在使用Meteor时，我有时访问底层的Node驱动程序，以便进行批量更新和插入。const bulk = Coll.rawCollection().initializeOrderedBulkOp(); 但是，当我在插入后查看数据库时，key_id字段的值最终是普通的子文档{_str: '...'}。有

浏览 4提问于2017-09-11得票数 3

回答已采纳

1回答

使用Spark和Java对不同的Mongo集合进行读写

java、mongodb、apache-spark

对于Spark来说，我还是个新手。我需要使用Spark读取Java中的Mongo集合，更改一些字段值，假设我将"123“附加到一个字段值并写入另一个集合。因此，我在Spark中配置了两个单独的Mongo URI作为输入和输出URI。然后，我继续从输入集合中读取。然而，我不理解的是，我如何将文档的RDD

浏览 13提问于2019-11-28得票数 1

回答已采纳

2回答

UpdateOneModel替换mongodb java驱动程序中的现有文档

mongodb、mongo-java、mongo-java-driver

securitiesCollection.bulkWrite(updateList,在上面的代码中，我试图更新文档中的属性子集。更新后，我看到整个文档仅替换为子集。有没有办法使用mongo-java-driver使用批量写操作来更新属性子集？

浏览 10提问于2018-05-31得票数 0

1回答

将集合中的所有文档从mongo移动到azure blob存储

mongodb、azure、mongodb-query、azure-storage

我正在尝试使用c#和mongo 1.9.1驱动程序将mongo集合中的所有文档移动到计划的azure and作业中的azure blob存储中。我不想将所有的100000个文档都保存在网络作业的内存中。有没有更好的方法可以像从mongo批量检索文档一样？或者有一种完全不同<e

浏览 0提问于2015-10-22得票数 1

1回答

spark-mongo数据库连接器中可以使用复合分片密钥MongoShardedPartitioner吗？

mongodb、apache-spark

我是spark-mongo connector 2.0的新手。如果我的理解不正确，请纠正我。分片键:用于拆分采集数据的字段。该字段应被编入索引并包含唯一值。当分区程序为MongoShardedPartitioner时，是否可以使用复合分片键？我该怎么做呢？在mongodb中<

浏览 1提问于2017-11-12得票数 1

1回答

如何在使用spark将json文档写入Mongo* DB时将自定义值设置为_id字段*

json、mongodb、scala、apache-spark

我正在尝试使用spark将包含多个JSON文档的JSON文件加载到Mongo DB中。我想要的就是创建一个字段_id并将它的值设置为其中一个JSON字段值，{ firstName: "abc",} 我想通过以下格式设置_id值= r

浏览 11提问于2019-07-29得票数 0

2回答

火花覆盖不会删除目标路径中的文件

apache-spark、pyspark、partitioning、overwrite

我的目标是构建一个每日进程，用来自data frame的新数据覆盖S3中特定路径下的所有分区。我使用了- df.write.format(source).mode("overwrite").save(path) (也尝试了动态覆盖选项)。但是，在某些运行中，旧数据不会被删除。我怀疑这与由于内存问题而中途中断的运行有关，并留下了一些损坏的文件，下一次运行没有删除，但还无法重现它。

浏览 2提问于2021-11-26得票数 1

1回答

Spark Mongo连接器:在MongoDB连接中只插入一个属性

python、mongodb、apache-spark、upsert

val附加到Mongo文档.使用，我可以通过"_id“附加使用默认的上行逻辑，这意味着如果Spark和Mongo文档中的"_id”匹配，那么Mongo连接器将不会创建新文档，而是更新旧文档。但!('spark.mongodb.output.uri','mongodb://<e

浏览 0提问于2018-05-30得票数 1

回答已采纳

1回答

由Apache火花和MongoDB Hadoop-连接器创建的BSON结构

json、mongodb、scala、apache-spark

我试图使用MongoDB将一些JSON从Spark (Scala)保存到MongoDB。我遇到的问题是，这个API似乎总是将数据保存为"{_id：.，value：{}“。在下面的代码示例中，我的文档保存如下： "_id" : ObjectId("55e80cfea9fbee30aa703261"), "_id"2014, &

浏览 4提问于2015-09-03得票数 3

3回答

如何使用mongoexport仅导出子文档中的特定字段

json、mongodb

有没有办法在使用mongoexport时只导出子文档中的指定字段？mongo docs说只使用-f field1，field2等。但这只适用于顶级字段。我在主文档中有一个文档，它也有字段。有没有办法只得到这些？"subField1": "subValue1",

浏览 0提问于2011-07-15得票数 15

回答已采纳

2回答

MongoDB是否按字段返回所有无重复的单据？

node.js、mongodb、mongo-shell

在mongo shell中，我有没有办法返回一个集合中的所有文档，但是按照特定的字段对它们进行排序，并删除所有字段与其他文档相同的文档？谢谢。

浏览 0提问于2012-07-13得票数 2

回答已采纳

2回答

Pyspark-Mongo缺少一些字段

python、mongodb、pyspark

所以我正在尝试使用mongo-spark连接器将集合表单MongoDB读入spark，但是文档中的一些字段丢失了，以前有人遇到过这个问题吗？如果是，解决方案是什么？下面是我用来读取MongoDB集合的命令： .option

浏览 0提问于2018-03-24得票数 3

1回答

使用pyspark - Databricks处理来自事件中心的事件

json、apache-spark、spark-streaming、azure-eventhub

我有一个Mongo change流(一个pymongo应用程序)，它不断地获取集合中的更改。这些由程序接收的更改文档将发送到Azure事件中心。Spark notebook必须在文档进入Event Hub时读取文档，并与该集合的spark表进行模式匹配(将文档中的字段与spark表列进行匹配)。如果文档

浏览 1提问于2019-01-12得票数 0

1回答

在mongodb中处理批量插入失败

mongodb、bulkinsert

我正在使用BulkWriteOperation接口插入一批记录。我拆分了整个页面，并将1000条记录插入到mongo中。如果批次中的任何一条记录插入失败，那么整个批次都不会被插入到mongo。有没有办法单独获得失败批处理的记录列表，这样我就可以进行递归并将剩余的记录插入到mongo中。或者有没有办法批量插入到mongodb<em

浏览 2提问于2016-01-14得票数 3

1回答

使用Spark标记文本内容？

java、mongodb、apache-spark、nlp、tokenize

我致力于实现一项要求，即使用apache和mongodb为文档创建一个单词字典。在我的场景中，我有一个mongo集合，其中每个文档都有一些文本类型字段以及一个文档所有者的字段。我希望解析集合文档中的文本内容，并创建一个字典，将单词映射到文档和所有者字段。基本上，键将是一个word，值将是_id和owner字段

浏览 0提问于2017-05-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云