从mongodb集合读取时指定pyspark中的字段

在pyspark中，可以使用MongoDB Connector for Spark来从MongoDB集合中读取数据，并且可以指定读取的字段。

首先，确保已经安装了pyspark和MongoDB Connector for Spark。然后，可以按照以下步骤从MongoDB集合中读取指定字段：

导入必要的库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

创建SparkSession：

spark = SparkSession.builder \
    .appName("Read from MongoDB") \
    .config("spark.mongodb.input.uri", "mongodb://localhost/mydb.mycollection") \
    .getOrCreate()

请将mongodb://localhost/mydb.mycollection替换为实际的MongoDB连接URI和集合名称。

读取MongoDB集合中的数据，并指定要读取的字段：

df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load().select(col("field1"), col("field2"))

请将field1和field2替换为实际的字段名称。

可以对读取的数据进行进一步的处理和分析，例如应用过滤条件、聚合操作等。
关闭SparkSession：

spark.stop()

这样，你就可以使用pyspark从MongoDB集合中读取指定字段的数据了。

对于MongoDB的更多信息和使用场景，你可以参考腾讯云的MongoDB产品介绍页面：腾讯云MongoDB。

从mongodb集合读取时指定pyspark中的字段

mongodb、apache-spark、pyspark

如何修改它以指定要从集合中查看哪些字段？我不想查看整个集合 df = my_spark.read.format("mongo").option("uri", "mongodb://localhost:27017/db_name.collection_name

浏览 11提问于2020-06-20得票数 1

1回答

从MONGO读取PySpark时，ISO日期字段会自动转换

python、mongodb、apache-spark、pyspark

我正在尝试将日期字段从MongoDB集合读取到PySpark df。我的日期字段在mongo DB中显示时为ISO格式，但在Spark上读取后会转换为不同的类型。like below df = (sqlContext.read.format("com.xyz.datas

浏览 0提问于2020-12-17得票数 1

3回答

java.lang.NoSuchFieldError: DECIMAL128 mongoDB spark

python、mongodb、apache-spark

我正在使用pyspark编写一个spark作业；我应该只从mongoDB集合中读取并将内容打印到屏幕上；代码如下：from pyspark.sql import SparkSessionmy_spark = SparkSession.builder.appName("myApp").config("spark.mongodb.input.uri", "<

浏览 1提问于2018-07-16得票数 1

1回答

使用pyspark查询MongoDB集合

mongodb、apache-spark、pyspark-sql

我正在构建一个应用程序，它使用MongoDB作为跨DB集合的database.One，有大量的数据，即8GB数据。我对存储在集合中的数据执行聚合操作，并相应地生成统计信息。但是处理海量数据需要很长的duration.Hence时间，我选择了来处理存储在MongDB集合中的数据，我配置了，并在python中执行了一个演示脚本，以便通过spark从mongo集

浏览 5提问于2016-07-27得票数 2

1回答

使用PySpark* Python从MongoDB读取数据*

python、mongodb、pyspark

我刚接触星火(PySpark)和MongoDB。我边走边学，但是在我的Python代码中，我想连接到一个MongoDB集合并从这个集合中读取数据。MongoDB位于本地VM - http://localhost:27017上我正在努力找出如何连接到它。我尝试过下面的方法，但它似乎只是返回空数据。from pyspark import SparkContext sc =

浏览 74提问于2020-04-17得票数 0

2回答

带有头线和数据类型的mongoimport csv

mongodb、mongoimport

我试图使用以下命令将csv导入mongodb：导入mongodb<e

浏览 2提问于2017-08-26得票数 4

2回答

StreamSets获取MongoDB字段

mongodb、streamsets

我想问一下，是否有人知道StreamSets是否也可以获得一个不存在于每个MongoDB记录中的字段。提前谢谢。

浏览 0提问于2019-03-04得票数 0

1回答

通过Apache查询从MongoDB读取数据

mongodb、scala、apache-spark

我能够通过Apache通过其文档中描述的传统方法读取MongoDB中存储的数据。我有一个mongoDB查询，希望在加载集合时使用它。查询很简单，但我似乎找不到在SparkSession对象中指定查询SparkSession函数的正确方法。下面是我的SparkSession构建器 "spark.<em

浏览 0提问于2019-02-15得票数 0

回答已采纳

4回答

如何有效地从mongodb读取数据并将其转换为spark的数据？

mongodb、pyspark、spark-dataframe

我在这里能找到的最接近的问题是。connection_string = 'mongodb://%s:%s/randdb.我还尝试了代码中注释掉的变体。但一切都同样缓慢。对于一个大小为2GB的集合(100000行和1000列)

浏览 9提问于2016-04-20得票数 3

回答已采纳

1回答

跳过collection.find()上的字段不工作

node.js、mongodb、mongodb-query

我正在用Node.JS和MongoDB开发一个报表系统，我试图通过查询从MongoDB获得一些数据，但是这个查询没有指定集合中的所有字段 if (err) throw err; console.log(do

浏览 0提问于2018-06-15得票数 0

回答已采纳

8回答

使用pyspark获取列的数据类型

apache-spark、pyspark、apache-spark-sql

我们正在读取来自MongoDB Collection的数据。Collection列有两个不同的值(例如：(bson.Int64,int) (int,float) )。我正在尝试使用pyspark获取一个数据类型。1238 56.22345566677777789 21 实际上，我们没有为mongo<e

浏览 42提问于2017-07-11得票数 62

回答已采纳

1回答

使用PySpark实现MongoDB到Elasticsearch

mongodb、elasticsearch、pyspark

我想使用PySpark将我的MongoDB集合集成到Elasticsearch中。我有MongoDB的连接字符串，但我不知道如何构造代码结构或指定一些参数。有人能给我创建这个任务的代码示例吗？

浏览 20提问于2021-11-10得票数 0

1回答

从MongodbC#读取特定字段值

mongodb、mongodb-query、mongodb-.net-driver、mongodb-csharp-2.0

最近我开始使用mongodb，我必须使用mongodb C# driver.That从mongodb读取特定字段(列)，这意味着无论值如何，我都必须读取特定字段。我只需要指定字段。我的db.so中有非结构化数据，我的项目中没有模型类。在完成这个任务之后，我使用Getcollection<>从C# library.then中读

浏览 2提问于2017-10-28得票数 4

回答已采纳

1回答

Symfony2 Docrine ODM:动态集合名称

php、mongodb、symfony、doctrine-orm、doctrine-odm

我在Symfony 2项目中使用MongoDB Doctrine ODM。在文档类中，映射元数据由注释指定。例如： * @MongoDB\Document(collection="statistiche")这种方式的集合名称是硬编码的。我想要有动态的集合名称参数，它可以从全局parameters.yml Symfony文件中<

浏览 0提问于2016-11-24得票数 1

1回答

是否有一种方法来检查某个给定字段是否存在于pyspark和mongodb中？

mongodb、apache-spark、pyspark、apache-spark-sql

我有一个包含N个字段的文档集合，其中之一是包含一些文本的字符串字段。该字段并不是在每个文档中都有。1)在缺少的文档中创建字段并替换为占位符文本。 2)删除文件。在mongodb中，我可以很容易地使用{ field: { $exists: <boolean> } }语法来处理这种情况，但我在mongodb连接器中使用

浏览 3提问于2020-05-01得票数 0

回答已采纳

3回答

为什么MongoDB中没有join关系？

mongodb

这些天我在学习MongoDB。我发现MongoDB不支持join。我只想知道为什么MongoDB选择这样做？提前谢谢..

浏览 2提问于2012-08-30得票数 2

回答已采纳

1回答

向新集合Pymongo添加类似JSON的文档

python、json、mongodb、pymongo、querying

因此，现在我正在mongoDB中查询一个现有的集合，以查找所有文档都带有"_t“："SkeletonJoints”标记的文档。一旦我有了这些文档，我想把它插入到一个新的集合中，这个集合被创建为只保存具有用户名的这些类型的文档(例如username_kinectdata)。= None #try connecting with mongodb</em

浏览 6提问于2014-10-17得票数 0

回答已采纳

1回答

MongoDB向mongoDB用户添加个人userDetails

database、mongodb、authentication、settings

我想要创建一个包含mongoDB用户详细信息的mongoDb数据库，其中除了admin之外，每个MongoDb用户只能从集合中读取指定的用户详细信息条目。所有具有此角色的用户只能读取字段"entryOwner“中的值等于其userId的数据输入。是否有可能通过一个自定义的用户角色来实现这一点，或者我是

浏览 1提问于2022-10-25得票数 0

2回答

访问morphia中的多个集合

mongodb、playframework、morphia

我正在使用morphia从mongodb拉取数据。我将只从mongodb读取数据，而不是写入数据。我已经创建了一个模型类，它将包含集合中的所有字段。我将在db中有多个集合，并且计数可能会增加。我使用@Entity(“集合名称”)来映射集合。我的问题是:我将需要来自不同集合的数据。那么我该如何映射它呢。传递给@Entity

浏览 1提问于2013-05-03得票数 1

1回答

一个集合中的两个ID字段

mongodb

我想了解在MongoDB中插入新集合时如何执行以下操作。据了解，对于插入到集合中的每条记录(这里使用SQL术语)，都会生成一个新的ObjectID -您不必指定ID字段。现在我已经有了一个User Profiles集合，我想创建一个User Rating集合，其中论坛用户对其他论坛用户进行评级。该集合将包括一个评级(1-5)，但我还希望为被评级的用户指定

浏览 0提问于2018-05-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从mongodb集合读取时指定pyspark中的字段

相关·内容

从mongodb集合读取时指定pyspark中的字段

从MONGO读取PySpark时，ISO日期字段会自动转换

java.lang.NoSuchFieldError: DECIMAL128 mongoDB spark

使用pyspark查询MongoDB集合

使用PySpark* Python从MongoDB读取数据*

带有头线和数据类型的mongoimport csv

StreamSets获取MongoDB字段

通过Apache查询从MongoDB读取数据

如何有效地从mongodb读取数据并将其转换为spark的数据？

跳过collection.find()上的字段不工作

使用pyspark获取列的数据类型

使用PySpark实现MongoDB到Elasticsearch

从MongodbC#读取特定字段值

Symfony2 Docrine ODM:动态集合名称

是否有一种方法来检查某个给定字段是否存在于pyspark和mongodb中？

为什么MongoDB中没有join关系？

向新集合Pymongo添加类似JSON的文档

MongoDB向mongoDB用户添加个人userDetails

访问morphia中的多个集合

一个集合中的两个ID字段

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐