PySpark:如何在数据框中为特定列填充NA值？

文章/答案/技术大牛

发布

2回答

、、

浏览 1提问于2017-07-13得票数 59

回答已采纳

1回答

R中的自定义数据框

我有一个下面的数据框 df <- data.frame(a = c(1,3,4,5,8,9), b = c("","",0,0,"",""))dfa b2 3 NA4 5 06 9 NA 是否有一种方法可以填充仅在特定点处捕获a列中<

浏览 18提问于2021-05-10得票数 0

2回答

Python Pandas:为特定列值的每个实例创建新列

、、

我有一个像这样的数据框RecID| A |B1 |Dog | x 3 |Dog |---------------------------------2 |Cat| a | b | NA| 基本上，为B的每个可能值创建新列，这些列按A的特定</e

浏览 9提问于2017-08-31得票数 2

回答已采纳

1回答

带有条件的Pandas数据帧操作

、、

如何遍历Pandas DataFrame字段并使用同一数据框中另一个字段的输入填充空值我的目标是用z列中的相应值填充y列中的na值

浏览 4提问于2019-11-26得票数 0

回答已采纳

0回答

用R中的列中位数填充数据框列中的缺失值

、、

我有一个数据框，其中一些列的类型为"factor“，另一些列的类型为"numeric”。在任何"factor“列中都没有缺失值。我正在尝试使用以下代码将每列中的缺失值替换为列中位数： df3[is.na(df3[,i]), i] <- median(df3[,i], na

浏览 0提问于2017-12-12得票数 0

回答已采纳

3回答

按组填充多个列的缺失值

、

我有一个数据框，如下所示：A 2 NA NA NAB 1 NA NA NAB 3 NA NA NAC 3 Z

浏览 20提问于2021-07-07得票数 0

3回答

当一些值为null时，如何将DataFrame中的多个列连接到另一个列中？

、

searches_df.withColumn('unique_id',reduce(column_concat,(searches_df[col] for col in search_parameters))) 除非列包含空值，否则整个级联字符串为空。我想要一个位置持有人或一些字符，而不是在串连字符串。

浏览 3提问于2016-09-08得票数 6

回答已采纳

1回答

如何在R中的数据框中使用mutate来根据第二列的值更新列

、、

在R中，我尝试根据数据框中另一列的值更新另一列Exams YearNA 2010-01-01

浏览 44提问于2019-04-16得票数 0

回答已采纳

1回答

希望确定列值大于20或小于-20的位置，并过滤到这些行R

、、

我有一个数据框，如下所示week1 <- c(-20.1, 15, 40, -15, 3.43)week3 <- c(5.1, 45, 2.36, 27, 4)我希望在第2到4列中找到值大于20或小于-20的值，并用NA或0填

浏览 0提问于2021-07-29得票数 0

1回答

spark中的lit()有什么用处？下面两段代码返回相同的输出，使用lit()的好处是什么？

、、

我这里有两段代码 gooddata=gooddata.withColumn("Priority",when((gooddata.Years_left < 5) & (gooddata.Years_left >= 0

浏览 2提问于2020-06-10得票数 0

1回答

通过填充现有列在Pyspark中创建新列

、

我正试图在现有的DataFrame中创建新列。10|null|null|null|+----+----+---+----+----+----+----+ 我希望用M2C填充0列中的空值，并创建一个新的列Ratio。df = df.withColumn('Ratio', df.select('M2C').na.fill(0)

浏览 4提问于2019-12-17得票数 0

回答已采纳

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。null234 null365 187当我想对column_1求和时，我得到的结果是一个空值，现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些<e

浏览 1提问于2017-02-18得票数 56

回答已采纳

2回答

在数据帧中组合两个匹配的变量

、

我正在处理调查数据，我在一个数据框中有两个因素变量，这两个变量是相同的测量方法，但在实验中针对不同的组。(这是调查中的一个错误。)所以现在我有了： df$a1 <- c(NA, NA, NA, 1, 0, 1) df$a2 <- c(1, 1, 0, NA, NA, NA) 我如何组合这两列s.t.一个的值填

浏览 14提问于2019-03-04得票数 0

回答已采纳

1回答

如何转换pyspark* dataframe列的值？*

、、、、

我在pyspark数据框中有一列表示电子设备的年龄，这些值是以毫秒为单位给出的。有没有一种简单的方法将该列的值转换为年份？我不是很精通Spark。编辑:我知道你可以很容易地用基本的数学将毫秒转换为年，我正在尝试获取pyspark数据帧的一列，并迭代它，并将所有列值转换为不同的值。有没有一个特定的pysp

浏览 17提问于2021-05-20得票数 1

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前的格式，但如何转换为正确的时间戳，如果我不知道什么格式的csv文

浏览 16提问于2020-12-30得票数 2

1回答

使用其他列中的值填充列的动态SQL查询

、、

我正在尝试为数据质量报告编写一个SQL查询，该报告将多个列中的数据质量失败值显示到一列中。InAmt -300 在上面的例子中，我有一个事实表，其中的数据质量问题已经在不同的列(负值，应该有Yes/No响应的'<e

浏览 3提问于2014-11-06得票数 0

1回答

根据其他列替换pyspark列

、、

在我的"data“数据框中，我有两列，”time_stamp“和”hour“。我想在缺少'time_stamp‘值的地方插入'hour’列值。我不想创建新列，而是在'time_stamp‘中填充缺少的值我想要做的是将这个pandas代码替换为pyspark代码： data['time_stamp

浏览 8提问于2019-03-21得票数 0

回答已采纳

1回答

以字符串形式读取包含数字值和缺失数据的pandas列

、

我的数据框中有一个Id列，如下所示：此数据有一些缺失值。如果I Keep_default_NA = True，则由NaN填充缺少的值，并将数据读取为浮点型，因此这些值将更改为这并不是我们想要的(我想去掉nA值并将其转换为如果I keep_defaul

浏览 0提问于2018-08-24得票数 0

1回答

PySpark从一个现有列创建一个新的new ()列，并使用现有的列值填充new

、

我希望将我的Pandas代码转换为PySpark，并通过将'session‘上的数据分组并转移数据以获得' next _timestamp’的下一行值来创建一个具有现有列的新列。但是对于每一组中的最后一行，我得到的是null值，我能够通过用现有的列值填充NA来克服这一点。需要在PySpark中实现同样的目标。df['

浏览 2提问于2022-11-11得票数 0

回答已采纳

2回答

如何合并数据框和字符串

在a=matrix(c(1,2,3,4)，nrow=2，ncol=2)和b=c('name',3)的情况下。我正在尝试合并a和b，这样第一行的结果是1 3 name 3，第二行的结果是2 4。

浏览 8提问于2019-02-16得票数 0

点击加载更多