我有一个CSV文件,有很多行和不同的列数。
如何根据列的计数对数据进行分组,并在不同的帧中显示?
CSV文件具有以下数据:
1 OLEG US FRANCE BIG
1 OLEG FR 18
1 NATA 18
由于每一行的列数不同,所以必须按列数对行进行分组,并显示3帧才能设置标头:
ID NAME STATE COUNTRY HOBBY
FR1: 1 OLEG US FRANCE BIG
ID NAME COUNTRY AGE
FR2: 1 OLEG FR 18
FR3:
ID NAME
当数据中有奇数行时,我希望从数据帧中随机删除一行。为了做到这一点,我尝试了以下方法:
library(dplyr)
df <- tibble(value 1:100) # Creating data frame
df <-
case_when(
nrow(df) %% 2 == 0 ~ df, # If even # of rows, keep df as is
nrow(df) %% 2 != 0 ~ df[-sample(x = nrow(df), size = 1),] # If odd number of rows, randomly s
我有一个数据帧,如下所示:
loc status ID
0 LA NaN NaN
1 CHC NaN NaN
2 NYC ARR 32
3 CHC DEP 45
4 SEA NaN NaN
我正在尝试根据status列来填充ID列中缺少的值。如果status列是"ARR":我想向后填充,如果status列是"DEP":我想向前填充,这样我的最终数据帧将如下所示:
loc status ID
0 LA NaN 32
1 CHC NaN 32
2 NYC ARR 32
尝试用数组填充熊猫数据帧(假设np.zeros(200))。 如果我们想用一个值填充一个pandas数据帧: for col in df.columns:
df[col].values[:] = 2 它工作得很好,但使用以下命令也是如此: for col in df.columns:
df[col].values[:] = np.zeros(200) 不会起作用。 我不明白为什么抛出错误(无法将输入数组X传播到形状Y中),因为我认为我是单独填充数据帧的每个值,因此在我看来形状并不重要。
我已经创建了一个带有模式的空数据帧。我正在尝试将新数据帧中的列添加到for循环中的现有列中。
K schema -|ID|DATE|报告ID|SUBMITTEDDATE|
for(data <- 0 to range-1){
val c = df2.select(substring(col("value"), str(data)._2, str(data)._3).alias(str(data)._1)).toDF()
//c.show()
k = c.withColumn(str(data)._1, c(str(data)._1))
}
k.show()
但
我有一个类似这样的数据帧-例如,2列多行:
A 2
A 7
B 1
B 3
B 6
C 2
我想在第一列的每个唯一值中对第二列中的项执行一些操作。
我有过
unique.values <- sort(unique(mydata[,1]))
这部分用于获取每个唯一值,但我不知道如何将每个唯一因子与它在第二列中的值相关联。我需要能够完全独立地操作每一个,并希望能够计数行等。尝试使用grep,但不能做到这一点。
感谢您能提供的任何帮助!
我正在尝试用从第二个数据帧中提取的字符串来填充数据帧列。然而,当我尝试这样做时,列中的新条目变成了列表:
for (i in nyc_districts$SUBWAY_STOP){
nyc_districts$SUBWAY_STOP[i]<-substops$V3[[i]]
}
class(substops$V3[[1]])
[1] "character"
class(nyc_districts$SUBWAY_STOP[1])
[1] "list"
怎么一回事?如何将新条目转换为字符串?非常感谢!
我有两张数据。在dataframe1中,我有一个列,其中包含一些空值。我希望使用另一个数据帧(即dataframe2 )的值来填充这些空值,方法是比较每个数据帧的不同列的值。
DataFrame 1:
Col1 Col2
A Null
B Null
C NUll
A 1000
B 1120
C 3200
数据框架2:
Col1 Col2
A 500
B 110
C 320
现在,我希望用来自第二个dataframe的值填充第一个dataframe中的空值,其中dataframe1.col1 = dataframe2.col1
最终想要的输出
我试图合并R中的两个数据帧,但是我有两个不同的列,具有不同类型的ID变量。有时,行将具有其中一个列的值,而不是另一个列的值。我想把它们都考虑进去,这样如果一个帧缺少一个列的值,那么另一个就会被使用。
> df1 <- data.frame(first = c('a', 'b', NA), second = c(NA, 'q', 'r'))
> df1
first second
1 a <NA>
2 b q
3 <NA> r
> df2 &
我的dataframe df1中有这样的列,其中以20开头的列是动态生成的。
我可以使用以下方法将以20开头的列重命名为2019_p、2020_p、2021_p
df.select(*[col(c).alias(f"${c}_p") if c.startswith("20") else col(c) for c in df.columns])
现在我有了两个数据帧,一个原始数据帧和另一个数据帧,列以20开头,以_p结尾。我希望根据不带_p或with_p的非空列来最终选择列。如何实现这一点?