如何根据Pyspark中的列名列表检查dataframe是否包含列？_如何检查Pyspark Dataframe中是否存在列表的交集_如何获取Pyspark dataframe的列是否包含NaN值？ - 腾讯云开发者社区

、

16327335157 C 19 30 1632733521 我有一个包含多个列的dataframe和一个包含部分df列名称的列表。现在，我想检查该列是否存在于列表中。如果该列在列表中</e

浏览 106提问于2021-11-18得票数 0

回答已采纳

1回答

如何根据具有特定值的多个列对DataFrame进行子集(使用loc() )？

、

如果我想根据指定列具有多个指定值的条件创建DataFrame的子集，则可以这样做：如果我有一个列名列表，那么根据条件创建DataFrame子集的最佳方法是什么，该条件检查这些列是否包含特定的值。例如，<em

浏览 4提问于2017-05-10得票数 1

回答已采纳

1回答

传递列表中的列名

、、、

我有一个列名列表，每次列名都不同。列名存储在列表中。因此，我需要将列表中的列名(在下面的示例中是它的id和programid id)传递给when子句，并检查这两列是否都包含空值。Pyspark代码： ColumnList = ['id','programid&#

浏览 10提问于2019-04-12得票数 2

2回答

df.ColumnName如何取回列值，其中Columnname是来自Pyspark中的user

、

我的Pyspark代码如下： Product = results.where(results.ColumnName == ProductName ) 1399 if name not in self.columns: 1403 return Column(jc) Attrib

浏览 53提问于2020-08-16得票数 0

回答已采纳

1回答

如何使用列表重命名pyspark* dataframe的所有列*

、

我有一个现有的pyspark dataframe，大约有200列。我有一个列名的列表(按照正确的顺序和长度)。如何在不使用structtype的情况下将列表应用到dataframe？

浏览 73提问于2021-09-02得票数 1

1回答

基于列名/字符串条件的PySpark删除列

、、

我希望将列放在包含banned_columns列表中任何单词的pyspark中，并从其余列中形成一个新的dataframe。basket和cricket开头的任何列，以及在其名称中任何地方都包含单词ball的列。以上是我到目前为止所做的工作，但不起作用(因为新的</e

浏览 0提问于2018-07-16得票数 1

回答已采纳

2回答

在pySpark中按条件分割数据

、、、

我有一个dataframe值为false、true或null。我想创建两个dataframes，1)只使用True列名，2)只使用假列名。我最初的想法是创建两个dataframes (因为它们稍后将被附加到一个更大的数据集中)，或者我还考虑将适当的列名转换为一个列表，然后将列表名称转换为列名。我是pySpark新手，我想知道如何在不硬编码任何列名(我有几百

浏览 3提问于2020-05-07得票数 1

回答已采纳

2回答

在Pyspark中将任意数量的列合并为Array类型的新列

、

我有一个pyspark dataframe，它包含N个包含整数的列。某些字段也可能为空。f为前缀的列组合成一个新列中的pyspark数组。features_filtered = features.select(F.concat(* features.columns[1:]).alias('combined')) 它返回null (我假设是由于初始dat

浏览 67提问于2020-06-18得票数 1

回答已采纳

1回答

大数据结构

还要解释两个join语句要实现的目标。

浏览 2提问于2021-10-28得票数 0

1回答

根据列名条件重命名dataframe中的大量列

、

我将一个XLM文件平面化为dataframe，其中一个属性是包含超过50个值的列表，生成的dataframe为列表创建了从1到50的列最后dataframe的列有A、B、C、D、0、1、2、3、4、5、6、7……50，我想根据某种逻辑将其重命名为A、B、C、D、Role0、Role1、Role2、Role3、Role4、......Role50 我可以重命名编号的

浏览 2提问于2021-10-16得票数 0

1回答

pySpark根据列表检查列是否存在

、、、

我的最终目标是，如果两个比较列名出现在从df1提取的值列表中，则在df2中使用这两个比较列名。我有一个名称列表和一个函数，用于检查这些名称在df1中是否作为列名存在。然而，这在python中起作用，在pySpark中不起作用。我得到的错误是：AttributeError: 'DataFram

浏览 28提问于2020-04-30得票数 1

回答已采纳

3回答

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： spark.read.format("snowflake") .optionscalculated_signal_df = calculated_signal_df.toDF(*[c.low

浏览 1提问于2021-04-21得票数 0

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal

浏览 17提问于2017-02-24得票数 7

回答已采纳

3回答

我有一个带有N列的表，我想将它们连接到一个string列中，然后在该列上执行一个散列。我想完全在Spark中完成这项工作，理想情况下，我已经尝试过HASH(*) as myhashcolumn，但是由于几个列有时为null，我无法像我所期望的那样使它工作。如果我必须创建一个UDF并注册它以实现这一点，我需要使用Python而不是Scala，因为我的所有其他代码都是用Python编写的。有什么想法吗？

浏览 1提问于2018-11-26得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云