在PySpark中显示物理计划_在查询计划中显示预估与实际预估_无法在PySpark SQLContext DataFrame中显示列 - 腾讯云开发者社区

、、

当你犯了一个错误，比如选择了一个不存在的列，在PySpark的异常消息中，你可以在底部看到类似这样的东西： ? 是否可以在PySpark中正常显示此树？(不需要引起异常)

浏览 14提问于2021-11-03得票数 0

回答已采纳

1回答

使用PySpark "functions.expr()“对查询有性能影响吗？

、、、、

在许多情况下，可以使用functions.expr("[SQL]")作为查询的替代方式，例如： df2=df.withColumn("gender", expr("CASE WHEN gender =

浏览 10提问于2022-09-07得票数 1

回答已采纳

1回答

如何确定失败阶段涉及的pyspark代码行？

、、

如何确定负责失败阶段的pyspark源代码行？我使用Web来查看物理计划，它提供了一些洞察力，因为它引用了源代码中的变量名称。我也曾考虑过DAG的失败阶段。然而，我一直无法将DAG的细节与实际计划联系起来。我使用的是Pyspark 2.4.3，我使用的是Dataframe API。

浏览 10提问于2019-10-01得票数 0

4回答

如何在Python中排除Spark dataframe中的多列

、、、

我发现PySpark有一个名为drop的方法，但它似乎一次只能删除一列。关于如何同时删除多个列有什么想法吗？selectedMachineView = machineView.drop([['GpuName','GPU1_TwoPartHwID']]) /usr/hdp/current/spark-client/python/pyspark

浏览 1提问于2016-02-28得票数 42

回答已采纳

1回答

电火花内存消耗很低。

、

我正在使用anaconda，并在上面安装pyspark。在pyspark程序中，我使用dataframe作为数据结构。这个程序是这样的：from pyspark import SparkContext Spark

浏览 0提问于2018-03-06得票数 0

回答已采纳

1回答

spark物理计划中的步骤未分配给DAG步骤

、、、、

我正尝试在spark SQL中调试一个返回不正确数据的简单查询。以下是示例查询from pyspark_llap import HiveWareho

浏览 3提问于2020-02-11得票数 1

1回答

如果计划的notebook未运行，是否会发出DSX通知？

、、

我正在尝试根据这个问题对一个每小时计划的笔记本进行故障排除：kernel-pyspark-20170104_230002.logkernel-pyspark-20170105_020000.logkernel-pyspark-20170105_

浏览 15提问于2017-01-05得票数 1

回答已采纳

1回答

创建中间计算列或展开定义

、、、

(根据如何实施星火)，是否存在实质性差异： df.withColumn('tempColumn', tempColumn) df.withColumn('newColumn2', col('existingColumn') - col('tempCo

浏览 4提问于2022-06-01得票数 0

1回答

用列表/元组过滤数据帧中火花广播变量的相关性

、、

方法1:from pyspark.sql.functions import col df.filter(col("alpha").isin(list_filter)).show(5)使用火花广播变量进行滤波df

浏览 4提问于2021-08-19得票数 1

回答已采纳

2回答

什么是Apache Spark (SQL)中的Catalyst Optimizer？

、

我想知道更多关于在Apache ( PySpark )中使用Catalyst Optimizer的信息，在pyspark数据帧中使用Catalyst Optimizer是可能的。

浏览 23提问于2019-05-18得票数 1

1回答

使用kafka作为外接程序的Heroku postgresql的火花流

、、、、

我正在尝试使用数据库中的pyspark从Heroku postgres数据库流，使用kafka作为插件。下面有这样的代码，但是它连续运行，没有返回任何内容，也没有错误。我尝试在代码中添加触发器，但不知道要使用什么导入，因为我没有在网上找到它的包。.trigger(continuous="1 second")没有物理计划。等待数据。{“消息”：“初始化源”，“isDataAvailable”：False，“isTrigg

浏览 14提问于2022-10-16得票数 0

2回答

Azure应用服务计划更改Azure Web应用

、、

new-AzureRMResourceGroupDeployment读过文章无法创建空的应用服务计划。但这将意味着同一服务计划中的所有其他web应用程序也将采用标准计划。如何通过powershell或其他方式仅更新我的web应用程序应用程序服务价格层。

浏览 0提问于2015-11-13得票数 0

1回答

皮林特用火花放电抛出错误警告

、

但是当我把它应用到我的代码中时，我得到了警告："drop_duplicates是不可调用的“。如果我将代码从"drop_duplicates“更改为"dropDuplicates"，则警告将消失。

浏览 5提问于2019-11-18得票数 2

1回答

当查询包含大量列的Hive表时，是否有可能减少MetaStore检查的数量？

、、、、

我在databricks上使用spark，它使用的是Hive转移，我正在尝试设置一个使用相当多列(20+)的作业/查询。运行亚稳态验证检查所需的时间与我的查询中包含的列数成线性关系--有任何方法可以跳过这个步骤吗？或者预先计算支票？或者至少让亚稳态只检查一次，而不是每列一次？一个小的例子是，当我运行下面的程序时，即使在调用显示或收集之前，也只会发生一次亚稳态检查： new_table = table.withColumn("new_col1", F.col("col1")我

浏览 6提问于2020-01-09得票数 4

回答已采纳

1回答

更新列后显示dataFrame时间太长

、、

我对这个dataFrame所做的全部工作是以下步骤：对于给定列的列表，我计算给定的组特性列表的和，并将其作为新列加入到我的输入中，在我将每个新列和加入到dataFrame.之后立即删除它。即使是一个简单的显示也需要10分钟。

浏览 2提问于2020-02-19得票数 3

回答已采纳

2回答

物理和逻辑IO计数

、

我希望能够在oracle中运行某种显示计划(类似于SYBASE)，它将在每个查询或存储过程中显示以下内容：在每个statement.Logical上使用物理IO，在每个语句上使用每个statement.Indexes这对我来说在sybase很简单。我有一个分析器工具来做这个，我花了我的大部分时间，实际上解决高IO项目。它是物理的还是逻辑的IO？另外，计划哈希值是多少: 16116

浏览 2提问于2011-07-26得票数 2

回答已采纳

4回答

对于MySQL查询，如何确定物理和逻辑I/O？

、、

我习惯于在Microsoft中使用显示计划，并且懒得使用工具来调优MySQL查询。如何确定MySQL中查询的物理/逻辑I/O？(“解释”显示了索引选择，但如果可能，我希望从MySQL服务器获得更多信息)。

浏览 0提问于2011-01-04得票数 8

1回答

包含空格的列的saveAsTable失败

、、、、

我有一段pyspark代码，用于将数据帧转换为物理表：如果数据帧df包含名称中包含空格的列，则会失败，并显示以下错误： 18/03/08 10:33:29 ERROR CreateDataSourceTableAsSelectCommand: Failed to write to tableorg.apache.spark.sql.execution.dataso

浏览 4提问于2018-03-08得票数 1

2回答

限制(N) vs显示(N) Pyspark中的性能差异

、、、、

试图更深入地了解spark是如何工作的，并尝试使用pyspark cli (2.4.0)。我在寻找使用limit(n).show()和show(n)之间的区别。下面代码中引用的拼图文件大约有50列，在远程HDFS上的大小超过50 on。PartitionFilters: [], ReadSchema: struct<test_col:array<bigint>> 请注意，test1和test2的物理规划几乎相同唯一的例外是t

浏览 22提问于2021-11-23得票数 1

1回答

带有火花源的多标签

、、

我是Spark的新手+--------------------+---------------+尝试执行相同的操作，但遇到错误 File "C:\Users\GX\anaconda3\lib\site-packages\pyspark\serializers.py",_write_with_length(obj,

浏览 52提问于2020-06-04得票数 1

回答已采纳

点击加载更多