Pyspark通过在另一列中搜索相同的值来替换NA_<NA>：通过搜索带有Pyspark值的字典来替换列中的值_如何通过将重复的值应用于另一列来替换另一列的值 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-ml

我正在使用PySpark Pipeline生成一些特性。 pipeline=Pipeline(stages=[token_q1,token_q2,remover_q1,remover_q2, transformer_textlength_q1,transformer_textlength_q2,transformer_totalwords, transformer_commonwords,transformer_difftwolength,

浏览 0提问于2018-04-29得票数 1

3回答

如何在Pyspark中替换dataframe的所有空值

dataframe、null、pyspark

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。例如： Column_1 column_2 null null null null 234 null 125 124 365 187 and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列求和时，我不会得到空值，但我会得到一个数值。我们如何在pyspark中实现这一点呢？

浏览 1提问于2017-02-18得票数 56

回答已采纳

1回答

在SpatialPolygonsDataFrame列表中的特定@数据列中替换NAs

r、sp

我有一个65 SpatialPolygonDataFrames的大列表，名为map_years。我需要在这个列表中的SPDF中的@data槽中的列中用0替换NAs。我可以通过这样做来访问这个专栏： > map_years[["map1951"]]@data$CATCH [1] NA 642.11 NA NA NA NA NA 0.00 281.65 通过这样做，我可以得到哪些是NAs的列表： > is.na(map_years[["map1951"]]@da

浏览 0提问于2018-02-05得票数 1

回答已采纳

1回答

使用R创建基于字典的新列

r、dplyr、tidyverse、stringr

对于下面的dataframe d，我试图通过使用字典dict_to_replace替换col1来创建一个新列 library(tidyverse) library(stringr) d <- data.frame(col1 = c("AA", "AG", "AC", "AA"), col2 = c(NA, "GG", "GG", "GC"), stringsAsFactors=FALSE) dict_to_replace <- c('AA'='a

浏览 3提问于2022-01-05得票数 0

回答已采纳

2回答

应用多个条件级别组

python、pandas、pandas-groupby

问题1: 我有一个数据框架，其中包含两个月值列，如month1和month2。如果month1列中的值不是NA，则将相应的amount值与month1列相加。如果month1列中的值是NA，那么选择相应的'month2‘值并在month1列中搜索它并执行sum。 import pandas as pd df = pd.DataFrame( { 'month1': [1, 2, 'NA', 1, 4, 'NA', 'NA'], 'month2': ['NA

浏览 1提问于2019-08-16得票数 1

回答已采纳

3回答

将spark df中一列的值替换为字典键值(pyspark)

apache-spark、pyspark、spark-dataframe

我被pyspark的数据转换任务搞得焦头烂额。我想用字典中指定的键值对替换df中某一列的所有值。 dict = {'A':1, 'B':2, 'C':3} 我的df如下所示： +-----------++-----------+ | col1|| col2| +-----------++-----------+ | B|| A| | A|| A| | A|| A| | C|| B|

浏览 2提问于2017-06-27得票数 6

回答已采纳

1回答

基于其他列更新列的Pyspark行

apache-spark、pyspark

我有一个data frame在pyspark，如下所示。 df.show() +---+----+ | id|name| +---+----+ | 1| sam| | 2| Tim| | 3| Jim| | 4| sam| +---+----+ 现在，我向df添加了一个新列，如下所示 from pyspark.sql.functions import lit from pyspark.sql.types import StringType new_df = df.withColumn('new_column', lit(None).cast(StringType()))

浏览 1提问于2018-05-02得票数 0

回答已采纳

2回答

如何根据R数据框中的列将NA值替换为不同的值？

r、dataframe、na

我正在尝试用一个向量中预先确定的值来替换列的NA值。例如，我有一个包含值( 1，5，3 )的向量和一个数据帧df，并希望将df的第一列中的所有NA值替换为1，将第二列的NA替换为5，将第三列的NA替换为3。我试过我看到的一个公式 df[is.na(df)] = vector 但由于“错误的长度”，似乎不起作用。df中的vector和#列的长度也是相同的。

浏览 0提问于2020-06-27得票数 0

2回答

在变体中使用na.rm=TRUE函数

r、dplyr

我试图计算累积和，并使用mutate创建新列。我正在为多个列这样做，每个列在不同的地方都有丢失的数据。 day water nitrogen 1 4 5 2 NA 6 3 3 NA 4 7 NA 5 2 9 6 NA 3 7 2 NA 8 NA 2 9 7 NA 10 4 3 我试着 mutate(df, sumwater = cum

浏览 1提问于2015-10-05得票数 3

回答已采纳

1回答

如何将PySpark中的所有列的字符串值替换为NULL？

pyspark

举个例子，我有一个df from pyspark.sql import Row row = Row("v", "x", "y", "z") df = sc.parallelize([ row("p", 1, 2, 3.0), row("NULL", 3, "NULL", 5.0), row("NA", None, 6, 7.0), row(float("Nan"), 8, "NULL", float("NaN&

浏览 9提问于2017-12-06得票数 0

回答已采纳

1回答

对于协方差计算，Apache治疗差异Pandas与MLLib的确切值是多少？

python、pandas、apache-spark、pyspark、apache-spark-mllib

我最近观察到和在结果上有显著差异。对于完全指定的输入(即没有任何NAs)，结果是相当接近的，但对于缺失的值则有很大的偏差。，但是我不能用火花复制结果。我找不到RowMatrix().computeCovariance()在中对NAs到底做了什么的文档--但是我的Scala充其量是非常公平的，而且我不熟悉，也许我漏掉了一些东西。有一个BLAS警告无法追踪原因，因为我使用的是预构建的macOS火花设置： WARN BLAS: Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS 考虑到协方差对于许

浏览 1提问于2021-10-15得票数 4

2回答

R中时间序列的线性插值

r、time-series、linear-interpolation

我有一个数据集，每分钟测量一次体温，持续8个小时。我删除了异常数据，现在有了NA值，有时只有一个，有时超过10个。我想用线性插值来替换丢失的数据。我尝试了不同的方法，但我不能‘近似’工作(NA值仍然是NA…)或者甚至找到一种方法来指定为R以使用之前的值(相同的列，减1行)或之后的值(相同的列，+1行)。在本例中，我尝试仅替换一个NA，+1和-1仅读取为1，因此它不起作用 df$var1_lini <- ifelse (!is.na(df$var1),df$var1, ifelse (!is.na(df$var[+1]),df$var[-1]+(df$va

浏览 2提问于2018-02-01得票数 1

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

python、apache-spark、pyspark、pyspark-dataframes

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。 customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)")) customerDf.show() # it's showing existing old df records without new columns. 如果我们可以将数据帧分配给另一个数据帧，我们就可以看到结果 test = customerDf.withColumn("fullname",expr("

浏览 4提问于2021-01-26得票数 0

2回答

Pyspark删除dataframe列中的多个字符

pyspark、translate、regexp-replace

看一下pyspark，我看到translate和regexp_replace可以帮助我处理存在于数据框列中的单个字符。我想知道是否有一种方法可以在regexp_replace或translate中提供多个字符串，以便解析它们并用其他东西替换它们。用例:删除A列中的所有$、#和逗号(，)

浏览 0提问于2018-06-09得票数 10

回答已采纳

2回答

如何使用dplyr实现从每一行向上方向的条件搜索？

r、filter、dplyr

这是一个如下的示例数据框架： df <- data.frame( A=c(1,2,3,4,5,6,7), B=c(1,NA,3,2,NA,4,3), C=c(NA,1,NA,NA,1,NA,NA), D=c(NA,2,NA,NA,4,NA,NA)) > df A B C D 1 1 1 NA NA 2 2 NA 1 2 3 3 3 NA NA 4 4 2 NA NA 5 5 NA 2 4 6 6 4 NA NA 7 7 3 NA NA 我希望使用dplyr管道函数在R中实现以下操作。添加一个新列E，该列在以下条件下包含D。从

浏览 2提问于2019-10-09得票数 0

回答已采纳

1回答

从中删除重复值

apache-spark、pyspark、apache-spark-sql

我正在分析堆栈溢出调查数据。其中一个列Databaseworkedwith是一个分号分隔的值列表，所以我使用split然后爆炸来为每个值创建新行。但是现在我得到了其他列的重复值。是否有一种方法可以避免复制其他列，而在它们中使用null。下面是我的密码。 from pyspark.sql import SparkSession import pyspark.sql.functions as f import pyspark.sql.types as t if __name__ == '__main__': session = SparkSession.builder

浏览 3提问于2021-03-26得票数 0

回答已采纳

2回答

将tibble中的NA值替换为列表

r、replace、tibble

我有一个tibble，它的列的值都是NA。我有一个值列表，我想用它来替换NA值。我正在寻找一种整洁的方法(如果可能的话)用列表中的值替换NA值。我看到了一些看起来可能有用的答案，但问题和答案太复杂了，我无法适应。我在谷歌上搜索了一两个小时，也没有打开电灯。下面是一个简单的例子： PersonName <- c("Bob", "John", "Harry") Phone <- c(NA,NA,NA) t <- tibble(PersonName, Phone) nu

浏览 9提问于2019-07-28得票数 1

回答已采纳

4回答

将两行之间的NAs替换为特定列中的相同值

我有一个具有多列的数据帧，如果它们位于具有相同编号的两行之间，我希望替换其中一列中的NAs。以下是我的数据： v1 v2 1 2 NA 3 NA 2 1 1 NA 7 NA 2 3 1 我基本上想从数据帧的开头开始，如果下一个非NA与前一个匹配，则用前一个非NA替换列v1中的NAs。也就是说，我希望结果是这样的： v1 v2 1 2 1 3 1 2 1 1 NA 7 NA 2 3 1 正如您可能看到的，第2行和第3行被替换为数字

浏览 0提问于2017-08-21得票数 4

1回答

<NA>：通过搜索带有Pyspark值的字典来替换列中的值

python、pandas、dataframe、apache-spark、pyspark

我有这样一种情况，我在PySpark中有一个条目字典： swap={'A': 0.07677341668184234, <NA>: 0.1497896460766734, 'B': 0.07186667210628232} 注意，"pandas.NA“对象被定义为其中一个键。我还有一个pandas表，里面有各种值，这些值可能在上面的“交换”字典中，也可能不在上面的“交换”字典中： index column 1 C 2 B 3 <NA> 4 A 根据我在stackoverflow上找

浏览 26提问于2021-11-19得票数 0

1回答

在structable()中包含NA值

r、na、vcd

我想用vcd包的structable函数制作一个列联表。我选择的两个列(consent_a和consent_b)具有na值和factor (Yes，No)值，因为每个情况都可以接受过程a或过程b，但不能同时接受两者。例如，如果同意程序a的情况，他们不会被要求程序b(因此consent_b将是NA)。在列联表中，我希望包括所有因数为yes、no和NA的情况。 library(vcd) mydata <- data.frame( report_year = c(2013, 2013, 2013, 2013, 2013, 2014, 2014, 2014, 2014, 2014),

浏览 14提问于2019-05-02得票数 1

3回答

带有嵌套级别的编程数的嵌套ifelse语句

我有一个三列的矩阵。对于每一行，应选择一个不丢失的值，如果在第1列中没有找到值，则将搜索第2列，然后搜索第3列，用户将给出命令。我对我复杂的嵌套ifelse方法相当满意-- Alas，这取决于给定列的长度。但是列的数量应该是灵活的(因此嵌套的ifelse语句的数量是灵活的)--这意味着，如果用户只选择一个或两个列，那么即使不想要的列包含一个值，也会产生NA。 foo_mat <- structure(c( NA, 30L, 15, 0, NA, 100L, 87L, NA, 0, NA, 2L, NA, 10, 0, NA ), .Dim = c(5L, 3L), .Dimna

浏览 5提问于2020-12-23得票数 4

回答已采纳

1回答

用窗口函数替换火花放电中的NA

python、apache-spark、pyspark、window

我想用基于分区列的注解替换NA，在pyspark中使用窗口函数吗？样本输入：所需产出：

浏览 4提问于2020-02-26得票数 1

回答已采纳

1回答

在pyspark dataframe中检索最大值时遇到问题

python、apache-spark、pyspark、apache-spark-sql、aws-glue

在我通过使用窗口和对一组列进行分区来计算pyspark dataframe中每行5行内的平均数量之后 from pyspark.sql import functions as F prep_df = ... window = Window.partitionBy([F.col(x) for x in group_list]).rowsBetween(Window.currentRow, Window.currentRow + 4) consecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity&#

浏览 14提问于2020-06-19得票数 0

回答已采纳

1回答

Pyspark dataframe -列中出现非法值？

sql、dataframe、apache-spark、filter、pyspark

所以我有一个表(示例) 我正在使用pyspark dataframe API来过滤那些从未获得过金牌的NOC，下面是我编写的代码我代码的第一部分 from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql.functions import * spark = SQLContext(sc) df1 = spark.read.format("csv").options(header = 'true').load("D:\\datase

浏览 1提问于2019-11-15得票数 0

1回答

查找和替换SPSS语法

syntax、spss

我希望在SPSS中找到和替换，但最好是使用语法，而不是CTRL+F。我需要它来做一些非常具体的事情。我有一个包含100个变量的数据集。在所有变量中，我想搜索任何写着"na“的单元格，并将其替换为”才“(空白)。但是我不想要任何"na“的例子，例如在"Anna”一词中，我只想知道如果单元格的全部内容都是"na"，那么就让单元格"“。如何使用dataset中所有列的语法来实现这一点？谢谢!

浏览 3提问于2022-09-13得票数 0

回答已采纳

6回答

Pyspark:通过搜索字典替换列中的值

python、apache-spark、dataframe、pyspark、apache-spark-sql

我是PySpark的新手。我有一个火花DataFrame df，它有一个列'device_type‘。我希望将“平板电脑”或“电话”中的每一个值替换为"Phone"，并将"PC“替换为"Desktop”。在Python中，我可以执行以下操作： deviceDict = {'Tablet':'Mobile','Phone':'Mobile','PC':'Desktop'} df['device_type'] = df['device

浏览 5提问于2017-05-15得票数 23

回答已采纳

3回答

如何通过管道连接到R中的if语句

r、magrittr

我想分析我的脸书、推特、Instagram、Youtube和LinkedIn账户中的数据。我有一个类似于下面的数据框： df <- data.frame(tw_likes = c(5,4,6,NA,NA,NA,NA,NA,NA), tw_comments = c(3,5,NA,NA,NA,NA,NA,NA,NA), fb_likes = c(NA,NA,NA,7,4,8,NA,NA,NA), fb_comments = c(NA,NA,NA,NA,NA,7,NA,NA,NA),

浏览 33提问于2020-01-08得票数 2

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

2回答

省略NA值的条件搜索

r、subset、conditional-statements

我正在对每一行中具有多个NA值的部分数据集进行有条件搜索。就像这样(预览)。 time1 time2 time3 time4 slice1 slice2 slice3 slice4 pt1 1 3 NA NA NA 1 3 5 pt2 NA 1 3 5 5 2 2 4 我想做一些条件搜索，为每一行应用一个条件(比较一行中的一列是否大于另一列)。我希望找到变量列(例如time1)小于相应列(例如，片1)的所有行(pt's)。 all.sma

浏览 6提问于2015-07-29得票数 2

回答已采纳

1回答

移除行，直到多个数据框上的列相同为止

r、while-loop、simplification

我有4个名为w, x, y, z的data frames，每个都有3列和相同的列名。我现在执行一个删除行的操作，直到名为Type的列在所有四个数据帧上都相同为止。为了实现这一点，我使用了一个带有以下代码的while循环： list_df <- list(z, w, x, y) tmp <- lapply(list_df, `[[`, 'Type') i <- as.integer(as.logical(all(sapply(tmp, function(x) all(x == tmp[[1]]))))) while (i =

浏览 12提问于2021-01-03得票数 0

回答已采纳

1回答

我想要替换R中数据集中的year列的'NA‘值

我想要替换R中数据集中的year列的'NA‘值。我尝试过使用mode进行搜索，但它给我的模式是'NA‘ set.seed(1) getmode <- function(x){ Md <- unique(x) Md[which.max(tabulate(match(x, Md)))] } #below line is not replacing NA values by mode trainset$GarageYrBlt[is.na(trainset$GarageYrBlt)] <- getmode(trainset$GarageYrBlt)

浏览 0提问于2018-05-06得票数 0

2回答

去掉NA案例和R中一个因子的计算均值

如何在一列中去掉NA案例，同时计算一个因子的平均值？使用此代码，我在x数据帧内计算了Group_A中DC1的平均值 test.mean <- mean(x$DC1[x$Groups=="Group_A"]) 但是，Group_A因子中DC1列的某些值具有NA单元格。为了从DC1中删除NA案例，我运行以下代码，其中DC1列是第3列。 test.filterNA <- x[complete.cases(x[ , 3]), ] 如何将两个代码合并到一行中？

浏览 4提问于2018-03-21得票数 0

1回答

如何填充按单位和时间分组的paneldata中的缺失？

r、dplyr、missing-data、imputation、panel-data

我有面板数据。在问卷(假定不变)中，数据有时不会在每一波中被问到。性别就是一个很好的例子。假设我有一个人三个时期的数据，但只观察了一次性别。它可以是在任何时期。Missings是随机的，他们可以在列中的任何地方。 paneldata = data.frame(id=c(1,1,1,2,2,2,3,3,3), time=seq(1:3), gender=c(1,1,1,2,NA,2,1,NA,NA)) library(dplyr) paneldata %>% group_by(id,time) 我需要找到“按单位和时间:复制列中所有NA字段中的值”之类的内容。

浏览 0提问于2019-09-11得票数 0

回答已采纳

2回答

如何根据上一行中的月份在行中增加一个月？

r、date、increment

我有一个dataframe，它有一个值列和“月份年”列。在第一行中，2018年8月是为月份年列编写的。在value列中有值的下列行是否有可能分别由下一个月自动填充？第二排是2018年9月，第三排是2018年10月，等等。实际结果： value month 645 Aug 2018 589 NA 465 NA 523 NA 632 NA 984 NA 预期成果： value month 645 Aug 2018 589 Sep 2018 465 Okt 2018 523 Nov 2018 632 Dez 2018 984

浏览 0提问于2019-01-04得票数 3

回答已采纳

2回答

是否对列名中具有相同字符串的列应用相同的操作？

这可能是一个非常简单的问题，但我觉得我有两个不同的答案，这两个答案很有帮助，但很难组合在一起。这也是我在StackOverflow上的第一个问题，所以这里是：我有一个测量化学过程的数据框架。有诸如AirValve、PressureValve、OilLevel、PressureLevel等列名。这些列中的值要么是NA，要么是整数。例如： AirValve <-c(rep(1,3),rep(2,5),rep(3,8),rep(4,4)) PressureLevel<-c(12,NA,NA,15,NA,NA,NA,NA,14,NA,NA,NA,NA,NA,NA,NA,16,NA,NA

浏览 0提问于2021-07-31得票数 0

1回答

如何在PySpark数据帧显示中设置显示精度

pyspark、spark-dataframe

调用.show()时如何在PySpark中设置显示精度考虑以下示例： from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: sqrt(x), range(200, 205)) ) df = sqlCtx.createDataFrame(data, ["col1", "col2"]) df.select([f.avg(c).alias(c) for c i

浏览 5提问于2018-02-17得票数 13

回答已采纳

2回答

在我做了老鼠计算和保存我的结果之后，我如何保持丢失的值保持不变呢？

r、dataframe、imputation、r-mice

作为一个新的R用户，我很难理解为什么我的dataframe中的NA值不断变化。我在Kaggle上运行我的代码。也许这就是我的问题产生的原因？有多个列具有NA值，所以我决定尝试使用多个估算来处理na值。因此，我创建了一个新的dataframe，其中的列只有na值，并开始计算。 abc1 <- select(abc, c(9,10,15,16,17,18,19,25,26)) #mice imputation input_data = abc1 my_imp = mice(input_data, m=5, method="pmm", maxit=20) summa

浏览 15提问于2021-12-21得票数 0

1回答

在R中求解具有数值和分类变量的回归问题

r、statistics、regression

我对统计学和R很陌生，所以我的问题可能有点傻，但既然我在网上找不到我的解决方案，我想我应该试着在这里问一下。我有一个包含一大堆不同变量的数据帧dataset，非常类似如下： Item | Size | Value | Town ---------------------------------- A | 10 | 800 | 1 B | 11 | 100 | 2 A | 17 | 900 | 2 D | 13 | 200 | 3 B | 15 | 500 | 1

浏览 0提问于2017-08-16得票数 2

1回答

根据另一个大小不同的数据替换选定列的值

r、dataframe、dplyr、tidyverse

我对按特定列值分组的数据帧的数值列进行了CV计算。然后根据得到的数据帧，替换了第一个数据帧中的相关列值。我通过使用if语句混合dplyr函数、merge函数和for循环来完成操作。如果有的话，我想请你缩短tidyverse函数的运算。下面是步骤和示例结果。我有一个数据框架 Accession Column1 Column2 Column3 Root ID 2000_1 0 0.2 14 2000 1 2000_2 0.01 0.2 17 2000 2 2001_1 0.012 0.22 11 20

浏览 0提问于2020-09-09得票数 2

回答已采纳

1回答

如何将多列从另一个文件添加到另一个文件

awk

我有两个以制表符分隔的文件，如下所示：文件A chr1 123 aa b c d chr1 234 a b c d chr1 345 aa b c d chr1 456 a b c d .... 文件B chr1 123 aa c d e ff chr1 345 aa e f g gg chr1 123 aa c d e hh chr1 567 aa z c a ii chr1 345 bb x q r kk ch

浏览 0提问于2014-12-12得票数 1

2回答

使用PySpark移除至少具有1NA的任何行

python、pyspark、apache-spark-sql

我有一个电火花数据，我想删除任何一行至少有一个NA。我知道如何只对一列(下面的代码)这样做。如何对dataframe的所有列执行相同的操作？可复制示例 # Import modules from pyspark.sql import SparkSession from pyspark import SparkContext from pyspark.sql.functions import col from pyspark.sql import Row # Defining SparkContext SparkContext.getOrCreate() # Defining Spa

浏览 14提问于2022-10-05得票数 1

回答已采纳

1回答

在jqgrid中对自定义格式化列进行排序

jqgrid、jqgrid-formatter

我的jqgrid有一个and列，它应用了自定义格式，其结果可以是数量本身，也可以是特殊字符(例如：*、"“、NA、图像)。所有的特殊字符都是需要的，因为它描述了数量的种类。(如：*指未授权用户查看金额) 我的挑战是如何解决这个问题。下面是“金额”列的“我的”列模型。 [name: 'amount', index: 'amount', type: "String", align: "right", sorttype: "float", title: false, formatter : someCustom

浏览 2提问于2013-06-24得票数 0

1回答

如何在pyspark中对dataframe进行算术运算？

apache-spark、pyspark、apache-spark-sql

我需要验证我写的代码是否正确。为此，我必须使用以下公式： (nvl(units_inflow,0)- nvl(units_inflow_can,0)-nvl(units_outflow,0)+nvl(units_outflow_can,0))*nav_value 这段代码是用Oracle SQL编写的，我需要在PySpark中执行同样的操作。到目前为止，就像在上面的代码中使用nvl一样，我已经在Pyspark中使用了fill()将null值替换为0。在我的t3数据框中有以下5列： ["units_inflow","units_inflow_can","

浏览 69提问于2021-02-16得票数 0

1回答

.when - Fill.na位置更改Pyspark条件结果

python、pandas、apache-spark、pyspark、apache-spark-sql

对于这个非常普遍的问题，我很抱歉：我有一个pyspark数据帧，并以以下方式对其应用fill.na和when条件： df2 = df.withColumn('A', F.when( (F.col('B') != 'qqq') & (F.col('C) != 'vvv') ,1).otherwise(0)).na.fill('').groupby('X').sum("A").toPandas() 如果我对X的特定值运行计数，我得到的计数如下所示： df2.loc[df

浏览 5提问于2019-11-11得票数 0

3回答

将所有列中的值转换为tibble/dplyr中的某个值

r、dplyr、tibble

我有一个tibble对象，我想用一个值替换除某些列之外的所有列(比如NA或0)。我可以不用管道%>%就能做这件事，但是如何用%>%来做呢？ library(tibble) dtf <- tibble(id = c('12', '22', '33', '40'), x1 = c(0, 2, 3, 4), a2 = c(1, 0, 3, 0), c5 = c('a', 'b', 'c'

浏览 3提问于2020-01-27得票数 2

回答已采纳

1回答

替换tibble中的日期NAs

r、readxl

我对readxl ()中的日期没有正确读取有问题。在没有解决方案的情况下，如何用手动键入的日期替换日期列中的NAs？他们只有12人。我试过fix()和replace_na()，但两次都出错了。我也尝试用一个新的向量重写日期列，但也失败了。我试过： df[is.na(df$Date),] <- keyed_in_dates_in_the_right_order 这就是守则： Sheff_derby_R[is.na(Sheff_derby_R$Date)] <- c("1893-10-16 UTC”, "1895-12-01 UTC”, "18

浏览 1提问于2019-02-04得票数 1

回答已采纳

1回答

通过在多个列中搜索多个记录值来创建Pandas DF

python、pandas、dataframe

我正在尝试创建一个新的数据框架，它可以基于多个条件跨多个列拉取行。我有一个巨大的excel文件(65k行)，我正在把它放入df，这样我就可以取出新的优先级报告。作为一个示例，这就是我用来在1列中搜索多个术语的方法(本例中为columnA)。我希望能够进行相同的搜索(针对多个术语)，但要跨越2到3个不同的列，而不仅仅是columnA。 newdf = (df.loc[df.columnA.str.contains('dbcor|nopgms|swcor|bkupmems', case=False, regex=True, na=False)])

浏览 11提问于2020-11-13得票数 0

回答已采纳

6回答

填充具有相同类型NA的列的函数。

r、dplyr、na

我有一个不同类型的列的数据框架。我想用相应类的NA替换每一列。例如： df = data_frame(x = c(1,2,3), y = c("a", "b", "c")) df[, 1:2] <- NA 生成具有两个逻辑列的数据帧，而不是数字和字符。我知道我能告诉R： df[,1] = as.numeric(NA) df[,2] = as.character(NA) 但是，对于所有可能类型NA的列，我如何在循环中共同完成这一任务呢？

浏览 1提问于2018-12-11得票数 19

回答已采纳

3回答

在R中将NAs转换为0，将非NA转换为1

我在将NAs表和不同值转换为0( NAs )和1(所有值)时遇到问题。表如下所示： x y z NA 8 NA 2 NA NA 9 9 8 ... 我可以使用以下命令将NAs转换为0： data[is.na(data)] <- 0 但是我不能一次转换所有列的其他值。

浏览 1提问于2017-11-15得票数 3

3回答

如何根据前后的值替换“NA”

r、dataset、dataframe

我在一个.csv中阅读一个列，列中包含一系列匹配的数字，它们之间是NAs。我想用序列外面的数字替换NAs，这样就可以得到长串的匹配数字。我想改变这一点： df <- data.frame(col1 = c(1,NA,NA,NA,1,2,NA,NA,NA,NA,2,NA,3,NA,NA,3)) #into this df2 <- data.frame(col1 = c(1,1,1,1,1,2,2,2,2,2,2,NA,3,3,3,3)) 我试着想办法做到这一点，但所有的搜索都让我束手无策。我还是相对较新的R，所以如果你需要更多的信息，请告诉我。提前谢谢。

浏览 2提问于2014-01-24得票数 1

回答已采纳