Spark 2.3大型SparkSQL查询的内存泄漏

运行CDH 5.14.4集群和Spark 2.3 Release 4 CDS。当从Spark应用程序(客户端模式)提交一个相当大的spark SQL作业时，在少数执行器上遇到一些java.lang.OutOfMemoryError错误。这个错误与底层的数据量无关，因为我能够在100或100万条记录中看到这个错误。SQL相当庞大，因为它执行大量复杂的条件语句和表达式。请立即向这里的社区寻求帮助。:138) at org.apache.spark<

浏览 108提问于2019-02-08得票数 0

1回答

SparkSQL和局部性

、、

我在hdfs上使用了sparksql。当我运行一个大型查询时，hdfs似乎是在节点之间向spark slaves发送数据。为什么HDFS不为本地数据提供本地spark服务？我甚至还设置了spark.locality.wait=10000。谢谢,

浏览 1提问于2015-09-10得票数 0

1回答

使用几个GBs大小的数据集的sparksql

、、

我没有在网上或其他问题上找到这个问题的答案，所以我在这里尝试：I使用的是postgresSQL，它有自己的查询优化(并行工作人员和索引)。我读到sparkSQL打算在大型数

浏览 2提问于2021-01-04得票数 1

回答已采纳

3回答

火花写入洗牌数据到hdfs？

、、

使用SparkSQL，我将把一个小桌子加入到星火公园的一个大桌子上。我遇到的问题是，我的本地磁盘正在被洗牌填充，大约在连接过程中写到。是否有一个火花设置，我可以使用它来泄漏洗牌数据，不是本地磁盘，而是我们的hdfs存储(大型Isilon集群)？我不关心查询的性能，

浏览 2提问于2017-04-27得票数 1

回答已采纳

3回答

SparkSQL vs Hive on Spark - Difference和利弊？

、、、

SparkSQL CLI在内部使用HiveQL，并且在spark( Hive -7292)上使用配置单元，hive使用spark作为后端引擎。有没有人能再解释一下，这两种方案到底有什么不同，两种方法的优缺点是什么？

浏览 1提问于2015-07-24得票数 40

2回答

Spark Thrift服务器在通过JDBC传输之前将全部数据集加载到内存中

、

Spark Thrift服务器试图在通过JDBC传输之前将完整的数据集加载到内存中，在JDBC客户端上，我收到错误： org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serializedresults of 48 tasks (XX GB) is bigger than spark<

浏览 9提问于2018-11-01得票数 0

1回答

作为一个web服务激发工作？

、、

我的一个同行已经创建了代码，它在交互火花作业中打开了一个restful服务。我们公司的目的是利用他的代码从各种数据源中提取数据。他可以让它在他的机器上用当地的火花来工作。他坚持认为这是个好主意，作为DevOps，我的工作就是用来实现它。据我所知，交互式作业用于一次性的分析性查询和开发非交互式作业，仅作为数据来源之间的ETL/ELT工作来运行。当然，在spark集群中确定服务绑定的端点还有

浏览 4提问于2022-05-12得票数 0

1回答

使用Spark的Cassandra简单插入语句在org.apache.spark.sql.catalyst.parser.ParseException中失败

、、

我试图用Spark将数据插入Cassandra表中，如下所示： spark.sparkSession.sql(que

浏览 5提问于2017-05-13得票数 0

回答已采纳

1回答

如何在Spark中处理多个csv.gz文件？

、、、、

我有一个包含多个表的大型数据集。每个表被分成数百个csv.gz文件，我需要通过PySpark将它们导入到Spark中。有关于如何将"csv.gz“文件导入到Spark的想法吗？SparkSQL的SparkContext或SparkSession是否提供了导入此类文件的功能？

浏览 22提问于2017-07-06得票数 1

1回答

无法在pyspark中导入parse_url

、、

对于pyspark中的hiveql，我有以下sql查询：我想翻译成函数式查询，比如：但是当我导入parse_urlpar

浏览 25提问于2019-11-07得票数 3

回答已采纳

4回答

在Spark中使用Dataframe编写SQL

、、、

我是Spark世界的新手。我目前正在迁移我的应用程序的摄取代码，其中包括在HDFS中摄取数据，在HDFS中使用原始数据和应用层，并执行CDC(变更数据捕获)，这是目前在Hive查询中编写的，并通过Oozie执行。这需要迁移到Spark应用程序(当前版本1.6)中。代码的另一部分稍后将迁移。在spark中，我可以直接从Hive中的表创建数据格式，只需按原样执行查询(如sqlContext.sql(&q

浏览 1提问于2017-08-01得票数 43

回答已采纳

1回答

Apache :我如何理解和控制我的查询是在Hive引擎上还是在Spark引擎上执行的？

、

我正在运行本地的spark 2.4.0实例import org.apache.spark.sql.hive.HiveContext val hc = new org.apache.spark.sql.hive.HiveContext在HiveContext.sql()代码中，我看到它现在只是SparkSession.sql()上的一个包装器。建议是在enableHive

浏览 1提问于2021-03-18得票数 0

1回答

从Spark到数据库的慢数据检索

、、

我们引入了Spark来操作产品中内存中的数据，因为在数据大小很大(大数据)的情况下，积极地使用远程数据库太费时了。现在，我们已经注意到，一旦数据加载到spark中，响应速度甚至比直接查询原始源(远程数据库)还要慢。我们使用sparkSQL检索数据，同样的查询在早期从远程数据库返回数据，其中同一台计算机上具有单个节点的Spark缓存落后于大多数时间。如有任何指导，将不胜感激。使用Spark<

浏览 4提问于2015-07-02得票数 1

3回答

Spark SQL中的更新查询

、

我想知道我是否可以像这样在sparksql中使用update查询：我得到了错误：Unsupported language features in query:update users set name= '*' where name is null 如果spar

浏览 2提问于2016-05-30得票数 10

回答已采纳

2回答

使用Apache Spark提供实时web服务查询

、、、

今天的基础数据大小约为20TB，预计未来还会大幅增长。对于消息/处理部分，我们相信spark对我们来说是一个非常好的选择。我只是在想，我们让web服务实现使用SparkSQL来访问Spark中经过处理的数据，这意味着什么。在这种情况下，架构/设计的危险可能是什么？每个人都在谈论火花是快还是不快，以及使用SparkSQL进行交互式查询。但是，它是否已经到了通过SparkSQL服务于大量web服务<

浏览 8提问于2015-06-05得票数 1

1回答

单个记录查找的火花性能

、、、、

我正在进行性能测试，比较Spark和Tez上的Hive之间对现有内部Hive表的查询。在整个测试过程中，Spark显示的查询执行时间与Tez上的Hive相同或更快。这些结果与许多例子是一致的。但是，有一个值得注意的例外情况，即查询涉及在单个记录级别上基于键的选择。在这种情况下，星火在Tez上比Hive慢得多。火花1.6.1火花控制:执行器2，可执行内存32G，执行

浏览 12提问于2016-10-18得票数 2

回答已采纳

1回答

apache方解石和teradata中的SQL查询

、、、

需要关于阿帕奇方解石的建议。我们有一些SQL查询运行在Teradata上。现在，我们希望在Hadoop/Spark上运行这些sql查询(按原样)，也许使用Apache方解石。我们在Spark (2.6.3)中和Apache方解石中尝试了这些SQL查询，但很少有查询不运行。问题是，如果我们定义一个派生变量(AS)，并试图在相同级别的同一查询中使用它，那么它在SparkSQL和方解石中不起作用，而是在Teradata中工作。抛出

浏览 1提问于2018-01-26得票数 2

回答已采纳

2回答

在脚本中迭代/循环Spark拼图文件会导致内存错误/堆积(使用Spark* SQL查询)*

、、、、

当我循环处理拼图文件和几个后处理函数时，我一直在试图弄清楚如何防止Spark因为内存问题而崩溃。很抱歉出现了大量的文本，但这并不是一个特定的bug (我使用的是PySpark)。这段代码使用spark SQL查询，所以我没有成功地创建一个包含所有SQL查询/函数的包装器函数，并将其传递给foreach (它不能接受sparkContext或sqlQuery作为输入)，而不是标准的并不意味着要在循环中运行，但

浏览 0提问于2016-05-20得票数 5

1回答

执行器上的Spark* 2.3内存泄漏*

、、、、

我收到了内存泄漏警告，理想情况下这是一个Spark bug回到1.6版本，并已得到解决。模式:独立集成开发环境: PyCharm Spark版本: 2.3 Python版本: 3.62018-05-25 15:00:05 WARN Executor:66 - Managed虽然我的工作已经成功完成了。编辑:许多人说这是2年前那个问题的副本，但答案说这是一个Spark bug，但当检查Spark的</em

浏览 1提问于2018-05-25得票数 11

1回答

spark创建或替换临时视图会给Hive Metastore增加内存吗？

、、、

我正在分析我们的spark应用程序的内存使用情况。我们使用蜂窝和PySpark尽管我找不到任何额外的cache()语句，但磁盘缓存claim_temp的存储空间将会爆炸式增长。classification = &#

浏览 0提问于2019-04-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

SparkSQL和局部性

使用几个GBs大小的数据集的sparksql

火花写入洗牌数据到hdfs？

SparkSQL vs Hive on Spark - Difference和利弊？

Spark Thrift服务器在通过JDBC传输之前将全部数据集加载到内存中

作为一个web服务激发工作？

使用Spark的Cassandra简单插入语句在org.apache.spark.sql.catalyst.parser.ParseException中失败

如何在Spark中处理多个csv.gz文件？

无法在pyspark中导入parse_url

在Spark中使用Dataframe编写SQL

Apache :我如何理解和控制我的查询是在Hive引擎上还是在Spark引擎上执行的？

从Spark到数据库的慢数据检索

Spark SQL中的更新查询

使用Apache Spark提供实时web服务查询

单个记录查找的火花性能

apache方解石和teradata中的SQL查询

在脚本中迭代/循环Spark拼图文件会导致内存错误/堆积(使用Spark* SQL查询)*

执行器上的Spark* 2.3内存泄漏*

spark创建或替换临时视图会给Hive Metastore增加内存吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐