联合时，Spark SQL重复计算相同的子查询

是指在联合查询中，当存在多个相同的子查询时，Spark SQL会对这些子查询进行重复计算，导致性能下降和资源浪费的问题。

为了解决这个问题，Spark SQL引入了子查询缓存机制。子查询缓存可以将相同的子查询结果缓存起来，下次再遇到相同的子查询时，直接从缓存中获取结果，避免了重复计算，提高了查询性能。

子查询缓存可以通过设置spark.sql.cache.enabled参数来开启或关闭。当开启子查询缓存时，Spark SQL会自动对子查询进行缓存。缓存的结果会存储在内存中，可以通过spark.sql.cache.memoryColumnarBatch.enabled参数来控制缓存结果的存储格式。

子查询缓存适用于那些计算代价较高、结果稳定的子查询。对于频繁变化的子查询或者计算代价较低的子查询，可以通过设置spark.sql.cache.expirationTime参数来控制缓存的过期时间，避免缓存过期导致的错误结果。

在使用Spark SQL进行联合查询时，可以通过以下步骤来优化重复计算相同的子查询：

开启子查询缓存：设置spark.sql.cache.enabled参数为true，开启子查询缓存机制。
设置缓存存储格式：根据实际情况，设置spark.sql.cache.memoryColumnarBatch.enabled参数，选择合适的缓存存储格式。
控制缓存过期时间：根据子查询的变化频率和计算代价，设置spark.sql.cache.expirationTime参数，控制缓存的过期时间。
监控缓存使用情况：使用Spark SQL的监控工具，如Spark Web UI，监控子查询缓存的使用情况，及时发现和解决缓存相关的性能问题。

腾讯云提供了一系列的云计算产品，可以用于支持Spark SQL的优化和加速。其中，腾讯云的云数据库TDSQL是一种高性能、高可用的云数据库产品，可以提供稳定可靠的数据存储和查询服务。您可以通过以下链接了解更多关于腾讯云云数据库TDSQL的信息：https://cloud.tencent.com/product/tdsql

请注意，以上答案仅供参考，具体的优化方法和腾讯云产品选择应根据实际需求和情况进行决策。

联合时，Spark SQL重复计算相同的子查询

、、

我有两个完全相同的子查询的并集。然而，根据查询解释，Spark SQL似乎将同一个子查询运行了两次。这是预期的吗？In [20]: session.sql('(select count(city_code) as c from location group by country_code having c < 10

浏览 30提问于2019-02-24得票数 0

1回答

按键显示不同值的星火/蜂巢

、、、、

在大数据处理中，通常希望在不改变现有查询结构(分组、子查询等)的情况下“勾勒”组摘要。在Spark (和HiveQL)中，collect_set就是这样做的一个例子。它构建每个组列的唯一值的数组。我正在寻找一个联非新议程，它为B列的每个唯一值从A列构建一个唯一值的映射。by datedate distinct_user_ids_by_category 1/1 {a: [1, 3

浏览 12提问于2016-12-30得票数 0

回答已采纳

1回答

pyspark groupby使用字符串groupby键在输出中生成多行

、

pyspark groupby操作不会为大型数据集生成唯一的组键 .groupBy('key') \例如，上面的查询返回groupBy列(键)的多行。groupby列(‘key’)的数据类型为字符串。key1, 10key1, 05 在Spark 2.4.3和2.3中测试，有重复的。当我计算<

浏览 12提问于2019-11-12得票数 0

回答已采纳

1回答

nhibernate多标准CTE子查询

、、

我目前有一个MultiCriteria查询，它根据子查询中的ids过滤结果子查询对于多准则查询中使用的所有查询都是相同的在sql中，子查询被重复了15次，这看起来有点丑陋。单独查询的</e

浏览 2提问于2010-07-08得票数 1

回答已采纳

2回答

在where子句和having子句之间执行Union/OR操作

、、、、

我正在为一个SQL的实现工作，它应该显示Where和Having子句之间的Union操作的结果。This is not valid but trying to give use a case sql语句的目的是返回同时满足where和having条件的结果集。现在，我必须创建一个条件，这样，我应该返回满足col1 ='Y‘OR avg(col2) >10 OR avg(col3*col4) =30的所有结果，就像我们在where子句中使

浏览 2提问于2016-12-14得票数 0

2回答

在脚本中迭代/循环Spark拼图文件会导致内存错误/堆积(使用Spark* SQL查询)*

、、、、

当我循环处理拼图文件和几个后处理函数时，我一直在试图弄清楚如何防止Spark因为内存问题而崩溃。很抱歉出现了大量的文本，但这并不是一个特定的bug (我使用的是PySpark)。这段代码使用spark SQL查询，所以我没有成功地创建一个包含所有SQL查询/函数的包装器函数，并将其传递给foreach (它不能接受sparkContext或sqlQuery作为输入)，而不是标准的从技术上讲

浏览 0提问于2016-05-20得票数 5

1回答

PySpark/Spark相关标量子查询与order by

、、、

我试图在一个相等的条件下，在Spark中将一个列值从一个表expl连接到我的主表co。问题是，因为有许多行从expl连接，所以我只想加入一个随机行，并使用它的列值。但是，我在子查询select语句或order中遇到了Correlated scalar subqueries错误。没有posts，这样就可以根据子查询的一部分处理订单，或者在Spark中处理子查询的随机

浏览 1提问于2020-07-31得票数 0

1回答

分析火花分析器:如何访问QueryPlanningTracker查询？

、、、

详细信息我正在尝试分析一个创建pyspark (df = spark_session.sql(thousand_line_query))的文件。没有运行查询。日志记录(以下)表明，Spark重复计算同一个子查询的次数太多了，所以我试图挖掘，并通过分析Spark在查询上的工作来了解到底发生了什么。阅读Spark的Scala源代码

浏览 5提问于2022-02-16得票数 2

1回答

Spark与Hive的差异与ANALYZE TABLE命令-

、、、

从Spark对Hive表运行的ANALYZE TABLE命令不会提供与从Hive发出的相同命令相同的性能改进。例如，我将一个数据帧插入到一个空的Hive表中： output.write.insertInto(“XXXXXXXX”) 然后运行analyze table命令：- spark.sql("ANALYZE_c0 || 12345678 |1 row s

浏览 261提问于2019-01-05得票数 2

回答已采纳

2回答

DataSet javaRDD()性能

、、、、

我正在使用Spark SQL从Spark应用程序的Cassandra中检索数据。数据以DataSet的形式检索。但是，我需要使用javaRDD()函数将此dataset转换为JavaRDD。是否有一些参数需要调整以增强这次的性能？

浏览 1提问于2017-08-19得票数 0

2回答

在Apache Spark中计算配置单元统计信息

、

我正在尝试计算Apache Spark中的配置单元表统计数据：我还执行语句来查看收集到的内容：sqlCtx.sql('DESC FORMATTED t1') 我可以看到我的数据是被收集的。但是，当我在HIVE client (Ambari)中执行相同的staement时，没

浏览 2提问于2018-04-14得票数 1

2回答

在MS上，SparkSQL会比本机SQL过程具有更好的性能吗？

、、、、

这是一个一般性的问题。我们有一个基于SQL SERVER和SSAS (OLAP)的报表应用程序。我们从Store过程中运行MDX查询，在使用SSAS时存在一些明显的计数性能问题，目前我们没有“大”数据，需要7~8秒才能得到结果。但是，我们需要对未来进行规划，以避免issue的纵向扩展问题。我们不想将重hadoop系统引入到我们的应用中(可能在将来)。因此，我们正在考虑星火和SparkSQL。我们只需要90天的数据报告，所以请给出您的意

浏览 4提问于2017-08-07得票数 2

1回答

有关优化此多层(包含多层子查询) SQL查询的技巧。

、、、

在这个SQL查询方面，我需要您的帮助。我有一个包含6层子查询的查询，目前的结构是这样的。我期待着就如何：减少层而不重复相同的语句(例如，我可以将'case when E>200‘替换为’( T2.BB >100然后B+C B+D end) > 200‘，然后在第1层中写入语句，从而消除我不能这样做，因为在我的原始查询</e

浏览 1提问于2017-12-01得票数 0

回答已采纳

1回答

不在Presto v.s Spark* SQL的实现中*

、、、

我得到了一个非常简单的查询，当在相同的硬件上运行Spark SQL和Presto (3小时v.s 3分钟)时，显示出显着的性能差异。SELECT field WHERE field NOT IN (SELECT field FROM test2) 通过对查询计划的研究，我发现原因在于Spark SQL如何处理NOT IN谓词子查询。<em

浏览 13提问于2019-11-07得票数 6

回答已采纳

1回答

分组表达式的相关子查询- TreeNodeException:绑定属性，树:计数(1)#382 L

、、、

Row(a=5, b=5), Row(a=5, b=5), Row(a=5, b=5), Row(a=5, b=5),首先，我只是简单地计算一下每一对存在的频率：SELECT a, b,FROM mydata AS o''').show()+--，其中包含一个对<em

浏览 1提问于2018-11-27得票数 2

回答已采纳

1回答

PySpark查询多个JSON文件

、、、

我已经使用命令(python Spark)将一个目录中包含的许多JSONL文件(所有文件的结构都相同)上传到Spark 2.2.0中: df = spark.read.json(mydirectory)df.createGlobalTempView("MyDatabase") sqlDF = spark.sql("SELECT count(*) FROM MyDatabase") sqlDF.show上传工作正常

浏览 2提问于2017-09-16得票数 0

1回答

SparkSQL无法运行简单的SQL查询。

、、

我正在处理一个简单的SparkSQL查询： *,FROMWHERE其中loan表的前10行如下： "loan_id";"account_id";"date";"amount";"duration";"payments";"status"

浏览 7提问于2021-12-16得票数 0

1回答

星火搜索空间数据分区剪枝

、、

我有大量的地理标记行-数亿行-我需要使用Spark查询所有点的距离计算。SQL使用基本的摩擦学和一个haversine距离函数可以正常工作。返回的结果集中，一个纬度点在+/-米之间的纬度与经度的纬度相同；按距离DESC排序，我做一个top-n来查找最近的点。到目前一切尚好。数据是全局的，因此将所有点存储在内存中是效率低下的。我的

浏览 1提问于2015-11-01得票数 0

1回答

为什么SQL子查询中的外部引用会产生不同的结果？

、、、

我运行了两个SQL查询:第一个查询对子查询内的表进行了外部引用。在第二个示例中，我在子查询中添加了相同的表。结果是不同的，它失败是由于多行。

浏览 16提问于2019-07-24得票数 0

回答已采纳

1回答

SQL Server是否优化了此示例查询中的重复聚合计算？

、

如果我在SQL Server2008 R2中执行以下查询，count(*)聚合是只为外部SELECT查询确定一次，还是将对外部SELECT中的每条记录重复执行？我猜测SQL Server会智能地看到相同的计算正在重复，因此出于优化的目的，它只会执行一次此计算。下面查询中的TotalCount的值对于外部查询中<

浏览 3提问于2012-11-25得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

联合时，Spark SQL重复计算相同的子查询

相关·内容

联合时，Spark SQL重复计算相同的子查询

按键显示不同值的星火/蜂巢

pyspark groupby使用字符串groupby键在输出中生成多行

nhibernate多标准CTE子查询

在where子句和having子句之间执行Union/OR操作

在脚本中迭代/循环Spark拼图文件会导致内存错误/堆积(使用Spark* SQL查询)*

PySpark/Spark相关标量子查询与order by

分析火花分析器:如何访问QueryPlanningTracker查询？

Spark与Hive的差异与ANALYZE TABLE命令-

DataSet javaRDD()性能

在Apache Spark中计算配置单元统计信息

在MS上，SparkSQL会比本机SQL过程具有更好的性能吗？

有关优化此多层(包含多层子查询) SQL查询的技巧。

不在Presto v.s Spark* SQL的实现中*

分组表达式的相关子查询- TreeNodeException:绑定属性，树:计数(1)#382 L

PySpark查询多个JSON文件

SparkSQL无法运行简单的SQL查询。

星火搜索空间数据分区剪枝

为什么SQL子查询中的外部引用会产生不同的结果？

SQL Server是否优化了此示例查询中的重复聚合计算？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐