如何合并pyspark dataframe并删除空值？_如何合并pyspark dataframe和丢弃null值？_处理pyspark dataframe中的空值 - 腾讯云开发者社区

、、、、

我需要合并他们两个人的数据。由于这些数据帧非常庞大(第一个数据帧有数百万行，第二个数据帧有数千行)，我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的，我看到的教程大多只显示了一个数据帧的说明。所以，我一直想知道如何使用pyspark来处理两个不同的数据帧。基本上，我需要做的是创建一个dataframe，其中包含来自这两个dataframe的所有信息。我需要这个最终的数据帧为每个用户和每个程序有单独的行。到目前为止，我创建了以下方法:我迭代第一个dataframe</

浏览 11提问于2021-06-03得票数 0

回答已采纳

1回答

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

、、、

我尝试运行upsert/delete命令来插入/删除DB2数据库源表中的一些值，这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

浏览 2提问于2019-05-10得票数 0

1回答

在Databricks中使用Pyspark更新数据库表

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，然后将新文件合并到相同的数据帧中，然后从表中删除数据并插入此数据帧。如果这是正确的方法，那么在上述场景中，我

浏览 2提问于2020-04-20得票数 0

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，并强制它应该大于0(参见)。但是，如果我

浏览 17提问于2017-02-24得票数 7

回答已采纳

1回答

删除阈值编号为null的列

、、

有一个数据集，并希望使用pyspark进行一些清理。删除空值大于75%的所有列。使用python：如何使用pyspark实现这一点？

浏览 0提问于2019-05-14得票数 0

4回答

如何在保留现有模式的同时从行中创建DataFrame？

、、、、

如果我调用map或mapPartition，并且我的函数接收来自PySpark的行，那么创建本地PySpark或Pandas DataFrame的自然方法是什么？合并行并保留架构的东西？目前，我所做的事情如下： rows = [x for x in partition] dfpart = pd.DataFrame(rows

浏览 0提问于2015-12-23得票数 2

回答已采纳

2回答

如何在pyspark* dataframe中返回空值的行？*

、、

我正在尝试从pyspark dataframe中获取空值的行。在pandas中，我可以在数据帧上使用isnull()来实现这一点：但在PySpark的情况下，当我运行以下命令时，它显示Attributeerror：AttributeError：'DataFrame‘对象没有属性'isNull’。如何在不对每一列进行检查的情况下获取具有空

浏览 25提问于2018-11-27得票数 5

2回答

如何在pyspark中合并重复的列？

、、

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？

浏览 57提问于2021-06-18得票数 2

回答已采纳

2回答

PySpark Dataframes:带条件的完全外部连接

、、、、

我有以下两个数据-+----------------+---------------++--------bob| eidsiva.net|+----------------+---------------+ +----------------+---------------+ 我想要完成一个完整的外部连接，但是在为单个

浏览 0提问于2019-11-21得票数 1

回答已采纳

1回答

如何删除pyspark中的常量列，而不是具有空值和一个其他值的列？

、、

例如：How to automatically drop constant columns in pyspark?但我发现，没有一个答案解决了这个问题，即countDistinct()不将空值视为不同的值。因此，只有两个结果null和none NULL值的列也将被删除。一个丑陋的解决方案是将spark dataframe中的所有null值替换为您确信在dataframe中其他地方不存在的值。但就像我说的那样那将是非常

浏览 23提问于2021-04-01得票数 1

回答已采纳

2回答

使用Pyspark将XML转换为Dataframe

、、、

我使用pyspark开发Databricks。<?xml version="1.0" encoding="UTF-8"?> <shorttitle>shorttitle_4</shorttitle>我的代码似乎从页面中删除了XML并从标记中创建了一个列表，但是当我创建我的dataframe</e

浏览 2提问于2018-09-12得票数 2

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前的格式，但如何转换为正确的时间戳，如果我不知道什么格式的csv文件。我也尝试过下面的代码，但这是在创建一个<

浏览 16提问于2020-12-30得票数 2

4回答

使用python将pyspark* dataframe中的多列合并为一列*

、、

浏览 2提问于2017-06-19得票数 12

2回答

在Pyspark中将任意数量的列合并为Array类型的新列

、

我有一个pyspark dataframe，它包含N个包含整数的列。某些字段也可能为空。--+| 2|123 | null|+---+-----+-----+ 我想要的是将所有以f为前缀的列组合成一个新列中的pysparkfeatures_filtered = features.select(F.concat(* features.columns[1:]).alias('combined')) 它返回null (我假设是由

浏览 67提问于2020-06-18得票数 1

回答已采纳

3回答

火花增量加载覆盖旧记录

、、、

我需要使用Spark (PySpark)对表进行增量加载第一天-----------2 | defid | value ---

浏览 0提问于2018-12-03得票数 4

回答已采纳

2回答

从列表中添加列的pySpark

、、、、

我有一个数据文件名，并希望根据列表中的值向它添加列。new.show() [1]: https://stack

浏览 2提问于2020-05-12得票数 1

回答已采纳

2回答

如何在PySpark中获得数据类型为时间戳的列的null/nan计数？

、、、

我有一个名为 createdtime 的列，其数据类型为时间戳，我希望找到创建时间为空或空或nan的行数。from pyspark.sql.functions import col,isnan,when,count df_Columns=["

浏览 5提问于2022-06-26得票数 0

1回答

在PySpark数据库中转换为空

、、、

我有一个dataframe d，它包含了“？”的几个列。字符串值。我想掩盖这些“？”值为NULL，因为我想使用dropna(‘.’)函数以删除带空值的观察。我不知道该怎么做，什么都没用。我试过： TypeError：'DataFrame‘对象不支持项分配 d[d=='?']=n.nan TypeError: super( type，obj)：obj必须是类型的实例或子类型 impo

浏览 3提问于2021-06-13得票数 0

回答已采纳

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

1回答

如何将小拼图文件合并为一个大拼图文件？

、、、

现在我为每个分区都有很多小的拼图文件，每个文件的大小都在5kb左右，我想把这些小文件合并成每个分区的一个大文件。我如何才能做到这一点，以提高我的蜂巢性能？我已经尝试将分区中的所有拼图文件读取到pyspark dataframe，并将组合后的dataframe重写到相同的分区，并删除旧的。但由于某些原因，这对我来说似乎是低效的或初学者级别的类型。

浏览 5提问于2018-08-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用pyspark合并来自两个不同数据帧的数据？

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

在Databricks中使用Pyspark更新数据库表

Pyspark使用.filter()过滤掉空列表

删除阈值编号为null的列

如何在保留现有模式的同时从行中创建DataFrame？

如何在pyspark* dataframe中返回空值的行？*

如何在pyspark中合并重复的列？

PySpark Dataframes:带条件的完全外部连接

如何删除pyspark中的常量列，而不是具有空值和一个其他值的列？

使用Pyspark将XML转换为Dataframe

如何将所有的日期格式转换为日期列的时间戳？

使用python将pyspark* dataframe中的多列合并为一列*

在Pyspark中将任意数量的列合并为Array类型的新列

火花增量加载覆盖旧记录

从列表中添加列的pySpark

如何在PySpark中获得数据类型为时间戳的列的null/nan计数？

在PySpark数据库中转换为空

pyspark中的to_json包含空值，但我需要空值作为空

如何将小拼图文件合并为一个大拼图文件？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐