使用pyspark在dataframe中动态填充空列

文章/答案/技术大牛

发布

2回答

我有一种情况，我的数据帧有3列，在这3列之外，column3中有可能存在空值。此DF中的总记录为200万条。我需要通过mysql数据库中的一个值来填充这个空值(基本上调用一个返回值的函数)。我如何实现这一点，我知道如何用静态值填充空值，但这是完全动态的。谢谢你的问候，罗宾

浏览 26提问于2018-09-08得票数 2

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我也尝试过下面的代码，但这是在创建一个空值的

浏览 16提问于2020-12-30得票数 2

1回答

Pyspark:如果其他列为空，则在pyspark列中填充固定值

、

我有一个有两列的pyspark dataframe。如果另一列中的行值为空，我想用固定值填充一列。因此，在customer_df中，如果customer_address为null，则将城市列填充为“unknown” 我在试这个 customer_df = customer_df.withColumn

浏览 172提问于2020-09-26得票数 0

回答已采纳

1回答

动态填充中的列名

、、、

我正在开发一个动态脚本，它可以join任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题，但是我使用一个变量名执行连接，它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多列)a="existingFile.Id" unChangedRecords = existingFile.

浏览 2提问于2018-02-24得票数 0

回答已采纳

1回答

如何根据另一个数据填充空

、

我现在开始使用火花放电。我有两个列dataframe和一个列包含一些空，例如。df1 s.t来填写df1中的空。结果是：1a3b 76w2r 01p4e 3 在熊猫中，我首先从df2创建一个查找字典，然后使用df1上的apply来填充空

浏览 2提问于2018-03-14得票数 1

回答已采纳

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf也许为了清楚起见，我有多个<

浏览 17提问于2017-02-24得票数 7

回答已采纳

1回答

通过计算现有列的比率在Pyspark* DataFrame中创建新列*

、、、、

我在一个PySpark DataFrame中有两列，我想在填充空值(而不是就地)后取这两列的比率。| 300 | 10 | 20 | +------+------+-----+------+------+------+------+-------+ 我想用M2D和M3C的比率来创建新的列Ratio在获取ratio之前，我想用0填充M2D，用1填充M3C，这将是动态执行的

浏览 17提问于2019-12-19得票数 1

回答已采纳

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

1回答

在pyspark数据帧中用数字替换字符串

、

我刚接触pyspark，我想在pyspark dataframe列中动态地用数字替换名称，因为我的dataframe中有超过500,000个名称。如何继续？

浏览 9提问于2019-07-25得票数 0

1回答

在pyspark* dataframe中动态填充列中的行*

、、

0 1 2 7 6 0 0 2 3 8 1 2 我有必须根据id进行分区的dataframe

浏览 21提问于2020-09-29得票数 0

2回答

如何创建空的考拉df

、

我正在尝试使用以下命令创建空的考拉DataFrame但是我得到了以下错误我也尝试了执行命令，但发现了类似的错误 df = ks.DataFrame(columns=['col1

浏览 3提问于2020-08-24得票数 0

2回答

如何在PySpark中获得数据类型为时间戳的列的null/nan计数？

、、、

我有一个名为 createdtime 的列，其数据类型为时间戳，我希望找到创建时间为空或空或nan的行数。from pyspark.sql.functions import col,isnan,when,count df_Columns=["

浏览 5提问于2022-06-26得票数 0

1回答

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

、

问题-我正在使用azure databricks在pyspark中读取拼图文件。有一些列有很多空值并且有十进制值，这些列被读取为字符串而不是双精度。有没有办法推断出pyspark中正确的数据类型？代码- 要读取拼花面板文件- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它的输出是一个包含100多列的数据帧，其中大多数列都是doubleP.S -我有一个可以有动态<e

浏览 16提问于2020-06-23得票数 0

1回答

pyspark.sql.utils.AnalysisException: Parquet数据源不支持空数据类型

、、、、

我试图在PySpark中的dataframe PySpark中添加一个列。我试过的密码：df1 = df1.withColumn("empty_column", F.lit(None)) 但我知道这个错误：pyspark.sql.utils.AnalysisException: Parquet数据源不支持空数据类型。

浏览 23提问于2022-10-18得票数 3

回答已采纳

1回答

PySpark比较空地图文字

、、、

我想在PySpark DataFrame中删除行，其中某个列包含一个空映射。我该怎么做？我似乎不能声明一个类型化的空MapType来比较我的列。我已经看到，在Scala中，您可以使用typedLit，但是在PySpark中似乎没有类似的东西。我还尝试过使用lit(...)并将其转换为struct<string,int>，但我没有为li

浏览 2提问于2019-09-29得票数 2

回答已采纳

3回答

将行中的每一列传递给Spark中的哈希函数

、、、

我有一个带有N列的表，我想将它们连接到一个string列中，然后在该列上执行一个散列。我想完全在Spark中完成这项工作，理想情况下，我已经尝试过HASH(*) as myhashcolumn，但是由于几个列有时为null，我无法像我所期望的那样使它工作。如果我必须创建一个UDF并注册它以实现这一点，我需要使用Python而不是Scala，因为我的所有其他代码都是用Python编写的。有什么想法吗？

浏览 1提问于2018-11-26得票数 1

回答已采纳

2回答

如何在pyspark* dataframe中返回空值的行？*

、、

我正在尝试从pyspark dataframe中获取空值的行。在pandas中，我可以在数据帧上使用isnull()来实现这一点：但在PySpark的情况下，当我运行以下命令时，它显示Attributeerror：AttributeError：'DataFrame‘对象没有属性'isNull’。如何在

浏览 25提问于2018-11-27得票数 5

2回答

多类分类的RandomForestClassifier SPACK2.x

、、、、

我试图使用随机森林进行多类分类，使用spark 2.1.1我有一个包含多个字符串类型列的dataframe。我已经用distinct().count()检查了我的所有列，以确保我没有太多的类别，等等。经过一些调试后，我了解到每当我开始对某些列建立索引时，我就会得到以下错误.打电话时： if (labelToIndex.contai

浏览 1提问于2018-02-12得票数 1

回答已采纳

1回答

动态列.withColumn Python DataFrame

、、、、

我想在我的星火DataFrame上动态地应用. list中的列名。from pyspark.sql.functions import col return [x for x in dataframe.columns if get_dtype(dataframe,x)==&#

浏览 3提问于2020-04-21得票数 1

回答已采纳

点击加载更多