Spark在数据库上运行过滤器，而不是在spark数据帧上运行

Spark是一个开源的分布式计算框架，可以用于处理大规模数据集。它提供了高效的数据处理能力，支持并行计算和内存计算，适用于大数据处理和机器学习等领域。

在数据库上运行过滤器是指将过滤操作放在数据库层面进行，而不是在Spark数据帧（DataFrame）上进行。这种方式可以利用数据库的索引和优化技术，提高过滤操作的效率和性能。

优势：

数据库层面的过滤可以充分利用数据库的索引，提高查询效率。
数据库通常具有成熟的优化器和执行引擎，可以针对具体的查询进行优化，提高查询性能。
数据库可以通过分布式架构来处理大规模数据，支持高并发查询和复杂的查询操作。

应用场景：

大规模数据集的查询和分析：通过在数据库上运行过滤器，可以高效地查询和分析大规模的数据集。
实时数据处理：将实时产生的数据存储在数据库中，通过在数据库上运行过滤器，可以实时地对数据进行处理和分析。
数据仓库和商业智能：通过在数据库上运行过滤器，可以对数据仓库中的数据进行查询和分析，支持商业智能和决策支持系统。

推荐的腾讯云相关产品：腾讯云提供了一系列与大数据处理和数据库相关的产品，以下是其中一些产品的介绍链接：

云数据库 TencentDB：https://cloud.tencent.com/product/cdb
分布式数据库 TDSQL：https://cloud.tencent.com/product/tdsql
数据仓库 TencentDB for TDSQL：https://cloud.tencent.com/product/dw
数据库迁移服务 DTS：https://cloud.tencent.com/product/dts
数据库审计 CDB Audit：https://cloud.tencent.com/product/cdbaudit

请注意，以上推荐的腾讯云产品仅供参考，具体选择应根据实际需求和情况进行。

Spark在数据库上运行过滤器，而不是在spark数据帧上运行

、、

因为我是Spark的新手，也许我错过了这里的一些东西。dataframe = df

浏览 11提问于2020-03-01得票数 0

1回答

如何清理运行蜂巢转移的德比实例

、、、

我正在尝试运行一个hive程序来在dataset上执行SQL，然后清理它(关闭上下文)，以便在另一个数据集上运行另一个SQL。但我看到错误说：我的问题是-有什么方法可以清理运行着蜂巢转移的derby实例，这样我的下一个上下文初始化就不会看到之前的实例了吗？我觉得这种情况类似于运行多个单元测试，应该有一种方法来清理事情。

浏览 2提问于2016-04-19得票数 1

3回答

如何在Spark1.3中通过Hive指示SparkSQL中的数据库

、、、

我有一个简单的Scala代码，它从Hive数据库检索数据并从结果集创建一个RDD。它可以很好地与HiveContext配合使用。select PRODUCT_CODE, DATA_UNIT from account"val rdd = hc.sql(mySql).rdd 我使用的Spark不幸的是，我不能强迫它使用"spark“。我尝试通过替换hc = SQLContext SQLContext(sc)来使用新的，看看性能是否会提高

浏览 7提问于2016-06-22得票数 5

1回答

spark.read.text是一种行为吗？

、

spark.read.text是火花动作还是一种转变？我的理解是，这是一种转变。但是为什么在我的Zeppelin笔记本上花了3分25秒呢？val dump = spark.read.text(s"s3://redacted/*/*").as[String].filter(_.nonEmpty) 此管道中没有操作，只有转换。对于上下文: Spark version = 3.0.0-amzn-0，Zeppelin version 0.9.0-pre

浏览 50提问于2020-11-21得票数 0

1回答

为什么spark的global_temp数据库不可见？

使用Spark 2.1.0中的新createGlobalTempView，可以在多个spark会话之间共享表scala> spark.sql("select * from global_temp.salaries") scala> salaries.

浏览 59提问于2017-03-16得票数 2

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "

浏览 11提问于2021-11-19得票数 0

1回答

是否可以从CSV列的特定子集创建配置单元表？

、、、

我想在这些CSV文件上创建一个Hive表，但只包括列的某个子集(见下文)。表中：我知道我只能更改CSV中的数据或使用2个Hive表，但我不想更改我的<em

浏览 0提问于2017-10-03得票数 1

1回答

如何在GUI中显示Spark结果(Tkinter)

、、、

我选择了不同的文件(.csv .json .txt ...)这就是我的工作，但是当我把这个函数和一个按钮关联起来的时候，结果就会显示在GUI中:这个函数在终端上执行，而GUI不显示。代码如下： def classifyCSV(): .appName("SparkByExamples.com") \.getOrCreate() df = spark.read.csv("...

浏览 15提问于2021-08-21得票数 0

2回答

Spark SQL扮演什么角色？内存DB？

、

最近我开始使用Spark SQL。我读了数据源Api，仍然不明白Spark SQL的作用是什么。真的愿意接受任何答案。诚挚的问候。

浏览 0提问于2018-01-16得票数 1

1回答

如何检查是否将查询从databricks下推到snowflake？

、、、

我正在将数据从snowflake(数据源)读取到databricks，创建数据帧，并应用连接、过滤器和聚合函数。代码运行正常，但无法找到查询是否被下推到snowflake。如何检查是否在snowflake或spark(databricks)集群上运行了查询？

浏览 1提问于2021-11-17得票数 1

1回答

Spark DataFrame行计数在两次运行之间不一致

、、、

当我在EMR上运行我的spark作业(版本2.1.1)时，每次运行都会计算数据帧上不同数量的行数。我首先从s3读取数据到4个不同的数据帧，这些计数总是一致的，然后在连接数据帧后，连接的结果具有不同的计数。之后，我还过滤了结果，并且在每次运行时也有不同的计数。timestampImp", $"

浏览 0提问于2017-10-22得票数 1

2回答

将spark的MLLib例程与pandas数据帧一起使用

、、、

我有一个非常大的数据集(大约20 it )存储在磁盘上，名为Pandas/PyTables，我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间，所以我想把它租给一个我可以访问的spark集群，而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧，但我对如何在MLLib例程中使用它感到有点困惑。我不太熟

浏览 1提问于2015-05-06得票数 0

2回答

在Spark JDBC属性中下推过滤器谓词

、

我如何设置我的spark jdbc选项，以确保我将过滤器谓词下推到数据库中，而不是先加载所有内容？我用的是spark 2.1我无法获得正确的语法来使用，我知道我可以在load()后面添加一个where子句，但这显然会先加载所有内容。我正在尝试下面的方法，但是这个过滤器在我的db客户端中运行需要几秒钟的时间，它没有返回任何东西，只是在尝试从spark jdbc向下推送谓词时继续<em

浏览 2提问于2018-01-04得票数 1

2回答

在写入数据帧时，从Spark到数据库的连接数是多少？

、、

在下面的场景中，我搞不懂Spark会建立多少到数据库的连接：假设我有一个Spark程序，它只在一个具有一个执行器的工作节点上运行，一个数据帧中的分区数是10，我想将这个数据帧写入Teradata。由于并行度是10，但是executor只有1，那么在保存数据时会建立10个连接，还是只有1个连接？

浏览 3提问于2020-11-05得票数 1

1回答

Apache :在工作节点而不是主节点上创建的文件

、、

我在本地pc上配置了一个主计算机，在virtualbox中配置了一个工作节点，结果文件已经在worker节点上创建，我想知道为什么发送回主节点。 .save("file:///home/data/KPI/KpiDensite.csv")val commerce

浏览 0提问于2018-02-28得票数 0

回答已采纳

1回答

Cassandra Spark慢写

、、、、

我正在使用Spark Cassandra连接器和python中的数据帧制作一个小的Spark应用程序，但我的写入速度非常慢。(table="moviescores", keyspace="movies").save() 其中result是一个数据帧。worker在Docker容器中运行，每个都在不同的节点上运行CoreOS，2 GB内存和2个内核在Digita

浏览 1提问于2017-03-29得票数 4

1回答

当使用Spark时，是否可以要求对数据库进行联接操作？

、、、

我不是Spark的专家，也不是底层RDD API的专家。但是，知道催化剂优化引擎，我希望斯派克会尽量减少内存中的努力。它们都很大(大约500米，不是大数据，但在标准应用服务器中作为一个整体内存是不可行的)。也就是说，假设我必须使用Spark (更大的用例的一部分)检索所有在属于SpecificOperation的字段上匹配某些特定条件的GenericOperation实例。，我可以从SQL中看到，Spark没有在数据库</e

浏览 2提问于2018-06-05得票数 1

2回答

Spark应用程序作为Rest服务

我有一个关于spark应用程序用法的问题。因此，我希望我们的Spark应用程序作为REST API Server运行，就像Spring Boot应用程序一样，因此它不会是批处理过程，相反，我们将加载应用程序，然后我们希望保持应用程序的活动状态(不调用spark.close())，并通过我们将定义的一些应用程序接口将应用程序用作实时查询引擎。

浏览 1提问于2020-09-01得票数 1

3回答

Apache可以用作数据库替换吗？(例如替换Mysql)

、、

我需要一个可伸缩的数据库解决方案，它可以扩展到多个工作节点，并且我遇到了Apache，它看起来非常强大的弹性。我可以用它作为Mysql的替代品吗？我尝试过创建、读取、更新、删除DataFrame中的值，但它似乎不是为此目的构建的吗？我(目前)能找到更新和行的方法.这几乎就像是一旦有了数据就可以查询数据，但不适合插入数据。如果它不能用作数据库.这是否意味着星火只是用于分析？如果需要实时信息，是否应该使用<em

浏览 4提问于2020-02-07得票数 1

回答已采纳

1回答

增加Spark* workers内核*

我已经在主机和2个工人上安装了Spark。每个worker的原始核心数是8。当我启动主机时，worker可以正常工作，没有任何问题，但问题是在Spark GUI中每个worker只分配了2个核心。

浏览 8提问于2019-12-05得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark在数据库上运行过滤器，而不是在spark数据帧上运行

相关·内容

Spark在数据库上运行过滤器，而不是在spark数据帧上运行

如何清理运行蜂巢转移的德比实例

如何在Spark1.3中通过Hive指示SparkSQL中的数据库

spark.read.text是一种行为吗？

为什么spark的global_temp数据库不可见？

优化PySpark与pandas DataFrames之间的转换

是否可以从CSV列的特定子集创建配置单元表？

如何在GUI中显示Spark结果(Tkinter)

Spark SQL扮演什么角色？内存DB？

如何检查是否将查询从databricks下推到snowflake？

Spark DataFrame行计数在两次运行之间不一致

将spark的MLLib例程与pandas数据帧一起使用

在Spark JDBC属性中下推过滤器谓词

在写入数据帧时，从Spark到数据库的连接数是多少？

Apache :在工作节点而不是主节点上创建的文件

Cassandra Spark慢写

当使用Spark时，是否可以要求对数据库进行联接操作？

Spark应用程序作为Rest服务

Apache可以用作数据库替换吗？(例如替换Mysql)

增加Spark* workers内核*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐