为什么Spark Mongo连接器不下推过滤器？

Spark Mongo连接器不下推过滤器的原因是因为MongoDB的查询语法和Spark的查询语法不完全一致，无法直接将Spark的过滤器下推到MongoDB进行处理。具体原因如下：

查询语法不一致：MongoDB使用的是JSON风格的查询语法，而Spark使用的是SQL风格的查询语法。这两种语法之间存在差异，无法直接将Spark的过滤器转换为MongoDB可以理解的查询语句。
功能差异：MongoDB和Spark的功能和特性也存在差异。MongoDB是一个面向文档的数据库，支持复杂的查询和聚合操作，而Spark是一个通用的大数据处理框架，更适合于分布式计算和数据处理。因此，Spark的过滤器可能包含MongoDB不支持的操作或函数，无法直接下推到MongoDB进行处理。
性能考虑：下推过滤器可以减少数据传输和处理的量，提高查询性能。然而，由于MongoDB和Spark的查询语法和功能差异，下推过滤器可能需要进行复杂的转换和解析，导致性能下降。为了避免性能损失，Spark Mongo连接器选择不下推过滤器。

尽管Spark Mongo连接器不下推过滤器，但仍然可以通过其他方式优化查询性能。例如，可以在Spark中使用过滤器操作来减少数据集的大小，然后再将数据传输到MongoDB进行进一步处理。此外，还可以通过调整查询语句和索引的使用来提高查询性能。

腾讯云提供了MongoDB的云服务，称为TencentDB for MongoDB。它是一种高性能、可扩展的NoSQL数据库，适用于各种应用场景。您可以通过以下链接了解更多关于TencentDB for MongoDB的信息：TencentDB for MongoDB

页面内容是否对你有帮助？

有帮助

没帮助

为什么Spark Mongo连接器不下推过滤器？

、、

我有一个很大的Mongo集合，我想在我的Spark应用程序中使用Spark Mongo连接器。在Mongo中选择几天的查询速度非常快(不到一秒)。然而，当我使用dataframe编写相同的查询时，该过滤器不会下推到Mongo，导致性能极低，因为Spark显然会获取整个集合并自行进行过滤。在物理计划中我看到：PushedFilters: [IsNotNull(original_item)] 当我在该集合的另一个字段上进行类似的查询时，<

浏览 22提问于2019-04-18得票数 2

2回答

Scala Spark Mongo -带有"in“子句的过滤器

、、

为了使用spark从这个集合中读取数据，我使用了以下连接器： <dependency> <version>2.4.2</version>我从文档中了解到，一

浏览 37提问于2020-12-28得票数 0

1回答

Java spark和MongoDB:只查询需要的数据

、、

我一直在升级一个JAVA spark项目，从使用txt文件输入升级到从MongoDB读取。我的问题是，我们是否可以只查询所需的数据，例如，我有数百万条记录。我只想获得本周初的记录，并开始处理。JavaSparkContext using the SparkSession's SparkContext object JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext

浏览 0提问于2017-04-25得票数 1

6回答

未能找到数据源: com.mongodb.spark.sql.DefaultSource

、、

我正试图按如下方式将spark (pyspark)连接到mongodb：conf.set('spark.mongodb.input.uri', default_mongo_uri)sc = SparkContext(conf=conf) sqlContext = SQLContext", default_

浏览 1提问于2018-06-21得票数 11

1回答

使用pyspark查询MongoDB集合

、、

但是处理海量数据需要很长的duration.Hence时间，我选择了来处理存储在MongDB集合中的数据，我配置了，并在python中执行了一个演示脚本，以便通过spark从mongo集合中获取数据。pyspark import SparkContext, SparkConfconf=SparkConf() conf.set('spark.mongodb.input.uri','mongodb://[host]/

浏览 5提问于2016-07-27得票数 2

2回答

如何使用来自MongoDB的过滤记录来构建星火数据帧？

、、、

我的应用程序是使用MongoDB作为平台构建的。DB中的一个集合具有大量的数据量，并且选择了apache通过计算来检索和生成分析数据。我已经将配置为与MongoDB通信。我需要使用MongoDB吡火花查询来查询集合，并构建一个由mongodb查询结果集组成的数据集。请给我一个适当的解决办法。

浏览 5提问于2016-08-09得票数 3

回答已采纳

2回答

蒙古-火花连接器的工作逻辑是什么？

、、

我一直在试图了解蒙戈火花连接器是如何工作的罩下，但我仍然没有得到整个工作逻辑的背后。entity_df = sqlContext.read.format("com.mongodb.spark.sql.DefaultSource") \.option("spark.mongodb.input.database", "WikiData&

浏览 3提问于2017-12-15得票数 0

回答已采纳

2回答

星星之火Mongodb连接器Scala -缺少数据库名称

、、、

我正在尝试使用MongoDB火花连接器在本地连接Spark到mongodb。WriteConfig(Map("uri" -> "mongodb://127.0.0.1/movie_db.movie_ratings")) // Load the movie rating data from MongoSet via the 'spark.mongodb.input.uri' or 'spar

浏览 23提问于2017-10-18得票数 8

回答已采纳

1回答

什么时候使用电火花流卡夫卡？

、、、

那么，为什么不使用kafka来处理流而不是火花流呢？为什么人们主要使用kafka作为消息代理而不是处理流？提前谢谢。

浏览 2提问于2017-08-04得票数 0

2回答

火花谓词下推性能

、

我在分区中按日期将拼板文件存储在目录中，如： /date=20180802 .filter($"id" === "58ff800af2") .show()

浏览 0提问于2018-08-15得票数 5

回答已采纳

4回答

使用scala从Spark将$group聚合写入mongodb时重复键错误

、、、

在spark上运行的mongodb聚合(特别是使用$group)在写回集合时正在创建重复的_id记录。因此，mongodb正在抛出重复的键错误。顺便说一句，这个查询在mongo中运行得非常好。我不明白的是，为什么星火不巩固完整(地图??)在把它写到集合之前的作业？每个分区只是映射记录并将其直接写入集合。这不是它的工作方式，对吧？我用的是 import org.apache.spark."org.mongodb.spark" %% &

浏览 6提问于2017-01-11得票数 2

1回答

在dataframe中映射每一行并应用返回dataframe的UDF

、、、

我试过df.rdd.map(lambda row:read_from_mongo(行，火花)).toDF() _pickle.PicklingError:未能序列化对象:异常:似乎您试图从广播变量

浏览 5提问于2019-12-24得票数 0

3回答

哪个过滤器更快-扫描的SingleColumnValueFilter还是RDD的火花过滤器？

、

我使用Hbase和Spark。我需要通过状态(可能是0,1,2,3)从表中获得过滤后的数据。我只需要状态为0的数据-这大约是Hbase中所有数据的5%。哪个更快-使用筛选器扫描Hbase或使用Spark筛选器读取所有Hbase数据的所有数据的rdd？ 为什么？它依赖于什么？

浏览 0提问于2019-08-08得票数 1

2回答

用两种不同的方式创建的同一个在同一个查询中得到不同的执行时间

、、、、

我以两种方式创建了相同的，以便在其上运行Spark。1.我使用以下命令将.csv文件中的数据直接读取到Spark中的Dataframe中：val rdd = MongoSpark.load(sc) val df =9

浏览 2提问于2022-01-05得票数 0

回答已采纳

1回答

火花在并行读取数据时不会将筛选器向下推到PostgreSQL数据源，从而为下限和上限提供值。

、、、

当我在数据帧上使用explain命令时，它在物理计划中的推送过滤器中没有任何内容。我也尝试过在load方法之后应用filter子句，但是它仍然没有向下推过滤器。选项1:这里我不使用筛选条件 .format("jdbc") .选项2:使用筛选条件 .format("j

浏览 6提问于2021-02-01得票数 1

2回答

为什么有人会选择弗林克而不是火花？

、

所以我很想知道为什么弗林克没有星火那么受欢迎。所以问题是，为什么有人会在星火

浏览 4提问于2022-04-21得票数 -2

1回答

Java-Spark: filter(dataset.col(newTime).$greater(oldTime))未在完整数据集上运行

、、

我用Mongo连接器编写了Java-火花代码.它应该从MongoDB中获取所有的行，其中列createdDate大于以前运行的createdDate (就像我存储在甲骨文中的每次运行的最高水标值一样)。以下是代码：import java.sql.Connection;import org.apache.spark.sql.DataFrameWriter; import org.ap

浏览 0提问于2018-08-07得票数 0

回答已采纳

1回答

火花Mongodb连接器单元测试

、、

我正在尝试在我的测试框架中设置Spark连接器。", "mongodb://localhost:27017/testdb.testread") .set("spark.mongodb.output.uri", "mongodb:/看起来上下文是开始的，然后立即停止，但我不知道为什么。日志不会出现任何错误。@2139a5fc调试2016-10-06 18:29:51,664 org.spark</e

浏览 1提问于2016-10-06得票数 0

1回答

kafka连接器debezium mongodb CDC update/$set message without filter(_id值)

、、、

我正在尝试使用debezium mongodb连接器设置从mongodb到kudu的同步。但正如debezium doc所说，我自己也尝试过，发现debezium mongodb CDC update/$set消息没有过滤器(_id值)。1570214265415439167, }, "ts_ms": 1564648181536我不明白为什么要这样设

浏览 4提问于2019-08-01得票数 4

2回答

星火无法计算表达式:窗口表达式的滞后

、、、

(SparkApplication.scala:52)编辑:，我在星火的Jira上找到了。在对filter函数的引用之后，似乎出现了window函数上的一个bug，而且由于cassandra连接器在保存主键成员(使用isnotnull函数)上过滤数据，所以这可能导致异常。编辑2 :我还尝试使用for

浏览 0提问于2018-10-01得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么Spark Mongo连接器不下推过滤器？

相关·内容

为什么Spark Mongo连接器不下推过滤器？

Scala Spark Mongo -带有"in“子句的过滤器

Java spark和MongoDB:只查询需要的数据

未能找到数据源: com.mongodb.spark.sql.DefaultSource

使用pyspark查询MongoDB集合

如何使用来自MongoDB的过滤记录来构建星火数据帧？

蒙古-火花连接器的工作逻辑是什么？

星星之火Mongodb连接器Scala -缺少数据库名称

什么时候使用电火花流卡夫卡？

火花谓词下推性能

使用scala从Spark将$group聚合写入mongodb时重复键错误

在dataframe中映射每一行并应用返回dataframe的UDF

哪个过滤器更快-扫描的SingleColumnValueFilter还是RDD的火花过滤器？

用两种不同的方式创建的同一个在同一个查询中得到不同的执行时间

火花在并行读取数据时不会将筛选器向下推到PostgreSQL数据源，从而为下限和上限提供值。

为什么有人会选择弗林克而不是火花？

Java-Spark: filter(dataset.col(newTime).$greater(oldTime))未在完整数据集上运行

火花Mongodb连接器单元测试

kafka连接器debezium mongodb CDC update/$set message without filter(_id值)

星火无法计算表达式:窗口表达式的滞后

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐