pySpark根据列表检查列是否存在_PySpark -检查数据帧中任何列中是否存在值列表_是否可以在pyspark select dataframe中检查列是否存在？ - 腾讯云开发者社区

、、、

我的最终目标是，如果两个比较列名出现在从df1提取的值列表中，则在df2中使用这两个比较列名。我有一个名称列表和一个函数，用于检查这些名称在df1中是否作为列名存在。然而，这在python中起作用，在pySpark中不起作用。我得到的错误是：AttributeError: 'DataFrame' object has no attribute 'values'.或者有没有办法将我的列表值与df2的列名进行比较(完整的datafr

浏览 28提问于2020-04-30得票数 1

回答已采纳

1回答

完整数据帧的火花散列

、

是否可以找到完整PySpark数据的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道pySpark中存在函数，用于从pyspark.sql.functions导入sha2进行列级哈希计算。读取数据中的数据，通过SoldDate进行分区，计算每个分区的散列，

浏览 8提问于2022-12-04得票数 0

2回答

如何检查我的pandas csv中是否有多余的列？

、、

目前，我正在尝试检查csv文件是否有某些列(是否存在)，以及在某个csv文件中是否有任何额外的列(不应该存在)。for column in list:

浏览 23提问于2020-06-02得票数 0

2回答

Pandas:检查df中是否存在列列表中的列

、

这里的目标是找到df中不存在的列，并使用空值创建它们。我有一个列名列表，如下所示：当我尝试检查列是否存在时，它只对存在的列给出True，对于缺少的列不给for column in column_list: print df.columns.isin

浏览 0提问于2018-10-23得票数 4

回答已采纳

1回答

动态汇总和重命名PySpark中的聚合列

、、、、

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名

浏览 24提问于2021-09-08得票数 0

2回答

如何检查来自不同数据帧的列值？

、、、

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pyspark

浏览 37提问于2020-09-03得票数 0

回答已采纳

2回答

PySpark -检查数据帧中任何列中是否存在值列表

、、、

我有一个包含200列和大约5亿条记录的Dataframe 'DF‘。我有另一个值列表'l‘。我想要检查，对于列表l中的每个值，每个值都出现在我的Dataframe DF的哪一列中。

浏览 51提问于2021-02-02得票数 2

1回答

以许可模式读取json文件- PySpark 2.3

、、、

corrupt_record")\ .json("hdfs://someLocation/") 发生在我身上的事情是，如果我试图用上面的代码读取一个完全完美的文件(没有损坏的记录)，这个列根本不会被添加我的要求是添加这个"_corrupt_record“列，而不管json文件是否有损坏的记录。如果文件没有任何损坏的记录，则此字段的所有值都应为空。

浏览 10提问于2021-01-12得票数 0

3回答

检查其他列pyspark df中是否存在列pyspark df的值

、、、、

我有2个pyspark数据格式，我想要检查一个列的值是否存在于另一个dataframe的列中。我只看到了如何过滤存在的值()的解决方案，我需要做的是返回一个true或false列。

浏览 4提问于2020-11-27得票数 2

回答已采纳

1回答

Pyspark :将所有数据帧的字符串转换为foat

、、

我有一个包含多个列(1000)的数据框，它们具有字符串类型。我希望将它们转换为不是一列一列地浮动，而是一次浮动所有数据帧。此外，我知道这是存在的： from pyspark.sql.types import IntegerType data_df = data_df.withColumn("column_name",

浏览 17提问于2021-04-15得票数 0

回答已采纳

1回答

PySpark -从列表中获取字符串位置

我有一个包含FN列的dataframe和这些列值的子集的列表。如果列值存在于列表中，则记录列表中的位置，即结束DF。udf l = ["GHI","DEF"] 编辑:我在lambda中做了一个if- the，这几乎意味着它是在withColumn语句中

浏览 1提问于2020-09-08得票数 1

回答已采纳

1回答

如何过滤清单中的值列？

、、

我有一个数据rawdata，在此数据上，我必须在列X上应用筛选条件，值为CB、CI和CR。

浏览 0提问于2017-10-12得票数 21

回答已采纳

3回答

如何检查一个dataframe中的列的值是否仅包含另一个dataframe中列中的值

、

我有一个dataframe(df1)，3列fname，lname，zip。fname lname zip rt kk 345另一个只有一个master_df列表的zip_codes。zip_codes 345 667 我想要编写一个pyspark代码来检查df1中的邮政编码是否是主列表中提到的邮政编码。主程序中不存在的任何内容都应该进入另一个数据格式。=m

浏览 0提问于2019-07-23得票数 2

回答已采纳

1回答

如何根据Pyspark中的列名列表检查dataframe是否包含列？

、

16327335157 C 19 30 1632733521 我有一个包含多个列的dataframe和一个包含部分df列名称的列表。现在，我想检查该列是否存在于列表中。如果该列在列表中，则应将其强制转换为双精度类型。我该怎么做呢？

浏览 106提问于2021-11-18得票数 0

回答已采纳

1回答

PySpark动态连接条件

、、、

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', ..../yarn/usercache/root/appcache/application_1544185829274_0001/container_1544185829274_0001_01_000001/pyspark.zip/p

浏览 0提问于2018-12-07得票数 2

3回答

如何使withColumnRenamed查询泛化

、、

curentColumnName2','currentColumnName3']它们是包含所有列的我想要检查是否在dataframe中存在列'curentColumnName1，如果是，那么将其重命名为newColumnName1，如果所有列都存在于da

浏览 1提问于2022-08-18得票数 0

1回答

列中的搜索值

、、

我想搜索列是否包含值。import pysparkfrom pyspark.sql.types import * print('Yes') print('No')``` but with pysp

浏览 16提问于2020-09-29得票数 1

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我有一个火花数据框架，如下所示:每行包含一个列表，我想从中提取一个元素。我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

2回答

是否可以在pyspark* select dataframe中检查列是否存在？*

、、、

我有一个JSON，其中有些列有时不存在于结构中。我试图设置一个条件，但它给出了一个错误。

浏览 168提问于2021-07-28得票数 0

4回答

如何使用PySpark检查Hive表是否存在

、、

我希望使用schemaname.tablename检查Hive中是否存在表pysparkSQL。Scala spark.catalog.tableExists("schemaname.tablename").However中有一个选项，相同的功能在pySpark中不可用。寻找一种快速和干净的方法来使用PySpark检查Hive表是否存在

浏览 8提问于2019-09-23得票数 7

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云