如何删除pyspark中的常量列，而不是具有空值和一个其他值的列？

文章/答案/技术大牛

发布

1回答

、、

例如：How to automatically drop constant columns in pyspark?但我发现，没有一个答案解决了这个问题，即countDistinct()不将空值视为不同的值。因此，只有两个结果null和none NULL值的列也将被删除。一个丑陋的解决方案是将spark dataframe中的所有null值

浏览 23提问于2021-04-01得票数 1

回答已采纳

1回答

同时处理几个特性中丢失的数据

、

日安，一次处理几个功能(分类和连续)中丢失的数据的方法是什么？我浏览了每一个特征，并绘制了它们分布的几个直方图，我认为简单地用一些常量值(均值、模式或其他东西)替代值并不是最好的选择。我想构建几个模型(连续值的分类和回归模型)，以便对数据进行归并，但我不知道正确的方法。如果我只使用非空行来训练我的模型，那么我

浏览 0提问于2020-11-08得票数 1

回答已采纳

1回答

用于更新cassandra数据库的Set命令

我有一个cassandra数据库，它的键空间名为CS_DATA，列族名为ScheduledData，其超列的cdata和行键为‘Div/12345/PLAN3’。这个超列有2个列，分别是c1和c2，还有一些值。每一列，即c1和c2都有value字段。c1具有空值，而c2具有包含多个字段<em

浏览 3提问于2014-02-10得票数 0

3回答

PySpark -查找具有多个不同值的DataFrame列的有效方法

、、、

我需要一种有效的方法来列出和删除Spark中的一元列(我使用PySpark DataFrame )。我将一元列定义为最多具有一个不同值的列，并且出于定义的目的，我也将null算作一个值。这意味着在某些行中有一个不同的non-null值而在其他行中有null<

浏览 40提问于2019-04-12得票数 0

1回答

spark中的lit()有什么用处？下面两段代码返回相同的输出，使用lit()的好处是什么？

、、

我这里有两段代码 gooddata=gooddata.withColumn("Priority",when((gooddata.Years_left < 5) & (gooddata.Years_left >= 0

浏览 2提问于2020-06-10得票数 0

1回答

渐进式Group By命令

、

这个问题出现在许多实际情况中，其中缺少的值要替换为从剩余可用值确定的期望值。我正在尝试计算列A除以n列的平均值，例如C1，...，Cn，它们可以具有空值。每当其中一列为null时，我希望替换计算的平均值，使其超过其他列中存在的值，并排除null列。例如，如果

浏览 1提问于2017-11-25得票数 0

1回答

根据组列删除列中的空值

、

我有一个具有组、ID和目标列的数据集。我试图通过Group列消除空目标值，而忽略ID列。我想在PySpark做这件事。| null || B | D | null |这是我要寻找的结果数据集| | B | D | null

浏览 1提问于2021-12-01得票数 0

回答已采纳

1回答

在spss建模器中如何删除空行

、

我有四个列，三个是整数，一个是标称。标称列有空值(Null)，其他三列没有空白。我在标称列上尝试了“NULL”，“空白”，但是输出中包含空白。我收到一条消息，即字符串+整数不能因条件而合并。请告诉我该怎么做。我使用18.1。

浏览 1提问于2017-10-20得票数 0

回答已采纳

2回答

PySpark在pyspark.sql.functions.col和pyspark.sql.functions.lit中的差异

、

我发现很难理解这两种方法与pyspark.sql.functions之间的区别，因为PySpark官方网站上的文档并不能提供很好的信息。例如，以下代码：print(F.col('col_name'))研究结果如下：Column<b'col_name'> Column<b'col_n

浏览 10提问于2017-09-24得票数 15

1回答

空列的垃圾数据不正确

、、

在使用AWS DMS servcie从MySQL迁移到ORAcle时，在源端(MySQL DB实例)，一些巨大的列(mediumtext)值对于表中75%的行是空的。而在目标(Oracle )中，它使用其他值(而不是垃圾值)进行迁移。在我看来，列值在行之间被错误地复制了。只要源端的列中有空<

浏览 22提问于2018-02-02得票数 0

1回答

在Google Sheets上，如何将单元格的值‘附加’到左边的单元格的值上？

、、

我有一个表，其中有3列，即A、B和C，但用户只能编辑C列。列A包含其他工作表中的所有值-此列中的值的数量可以随着值被删除或添加到其他工作表中而更改(编辑:可以将新值添加到其他工作表的任何部分，而不仅仅是底

浏览 19提问于2020-10-21得票数 0

1回答

了解列在PySpark数据帧中是否具有常量值的最快方法

、

我想断言PySpark DataFrame列的值是否在所有行中都是相同的。例如，拥有下一个DataFrame| A | B || 2.0A“不是常量，"B”是常量。我尝试了两种方法：df.select(stddev(col('B'))

浏览 10提问于2018-08-31得票数 2

回答已采纳

2回答

PySpark:如何在PySpark转换中指定PySpark轴？

、、

我希望使用dropna()删除包含所有空值的列。使用Pandas，您可以通过在axis = 'columns'中设置关键字参数dropna()来实现这一点。这里是GitHub文章中的一个例子。我如何在PySpark中做到这一点？dropna()可以作为PySpark中的转换使用，但是axis不是</e

浏览 0提问于2020-02-11得票数 1

4回答

Server更新不同的值

、、

我有3列数据：我想用一个值eh更新Column2，但只对column1的每个值的一个实例进行更新。例如，a= Hello，但Hello的第二个实例为NULL，与b等相同。我可以使用以下方法找到不

浏览 0提问于2019-12-31得票数 1

1回答

Scala - MaxBins错误-决策树-范畴变量

、、、

categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性中的值数目一样大，但是分类功能0有31个值。考虑删除具有大量值的此功能和其他分类功能，或添加更多的培训示例。31，我尝试过maxBins = 32 (根据这些帖子中的答

浏览 1提问于2017-11-20得票数 0

1回答

当输入参数是从dataframe的两列连接起来的值时，引发UDF错误

、、、、

下面的python代码将一个csv文件加载到dataframe df中，并将一个字符串值从df的单个或多列发送到UDF函数testFunction(...)。如果我发送一个列值，代码就能正常工作。但是，如果我从df的两列发送值df.address + " " + df.city，则会得到以下错误：问题：我可能做错了什么，我们如何解决这个问题？

浏览 6提问于2022-05-21得票数 0

回答已采纳

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。_2null null125 124and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有

浏览 1提问于2017-02-18得票数 56

回答已采纳

1回答

如何根据一列中的重复项修改另一列并在Excel中保留唯一值

、

我有一个电子表格，其中有许多重复项我需要清理，但需要确保另一列中的正确数据被保留。数据和预期结果 ? 基本上，在E列中有重复的值，但这些值可以重复任意次，每次都不是相同的数量。在D列中，每条记录都应该有一个A或B或空白。现在的问题是，一些重复的集合在列D中具有不同

浏览 64提问于2021-10-19得票数 0

2回答

列的值为null，并在中进行交换。

、、、、

我正在使用pyspark==2.3.1。我用熊猫对数据进行了数据预处理，现在我想把我的预处理功能转换成熊猫的火花放电。但是，当使用pyspark读取数据CSV文件时，许多值将变为空列，而该列实际上有一些值。如果我试图对这个dataframe执行任何操作，那么它将与其他列交换列的值。我也尝试过不同版本的火花放电。谢谢 <

浏览 5提问于2022-02-16得票数 0

回答已采纳

1回答

两个相同的值

、、

我有个很奇怪的问题。我读过一个csv文件，其中一些列同时具有空值和空值。我试图查找每行值相同的列，但最后得到如下结果：df.select(trim(lower(col("

浏览 2提问于2022-03-17得票数 0

点击加载更多