我正在尝试创建一个函数来向数据帧中添加标记。数据框架的名称包含我需要的信息(日期、选择、处理等.)。所以我做了一个函数来提取我需要的信息。我有一个包含所有数据帧的大列表,当我将函数应用到列表时,它确实为标记创建了新列,但是值是NA-s。每个数据帧都有相同的名称结构,如果我从列表中提取一个数据帧并运行该函数,它就能工作。你能帮我找出为什么当我把它应用到清单上时不起作用吗?
这是我的功能:
library(stringr)
tagging <- function(H){
namey<-deparse(substitute(H)) #get the name of the dat
我有一个数据帧(gtf)列表,我想计算出在一组坐标中,每个数据帧中有0的比例。也就是说,如果我有500个数据帧,其中120个在坐标1,1处有0,那么函数将返回120/500。
最后,我希望函数返回一个数据框架,其中列对应于gtf的列,值是对应坐标中0的数据帧的比例。这里是gtf的娱乐
x = matrix(c(1,0), 6,6)
x = as.data.frame(x)
y = matrix(c(0,1), 6,6)
y = as.data.frame(x)
gtf = list(x,y,x,y)
以下是我尝试过的:
for (i in seq_along(gtf))
for (j
假设您有一个函数数组。每个函数返回一个具有相同索引和大小的pandas.Series对象。每个函数都接受相同的输入,即主数据df。
我正在寻找一个输出,该输出将本系列的每一项都作为结果数据帧的列。
目前,我有以下几点:
df_result = [f(df) for f in f_arr]
df_result = pd.DataFrame(df_result)
这需要很长时间(列表操作似乎有一些开销),由此产生的数据就是我所需要的转换。我觉得应该有一个干净的地图/应用的方式来做到这一点。
使用虚拟数据,我有两个数据帧:
一个是按性别分隔的位置及其排名的列表(df1)
Locations Male Female
1 A 1 2
2 B 2 1
3 C 1 2
另一个是人员列表
Name Gender Location
1 Joe Male A
2 Alex Female B
3 Chris Female A
4 Sam Male C
我想在第二个数据框(df2$Value)中添加一列,根据性别和位置为第
我有一个PySpark数据帧,它有一个复杂的列,请参考下列值:
ID value
1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}]
我想在PySpark dataframe中添加一个新列,它基本上将它转换为一个字符串列表。如果Label为null,则字符串应包含value;如果label不为null,则string应为label:value。因此,对于上面的示例数据帧,输出应如下所示:
ID
我有一个数据帧列表,我希望将该列表中每个数据帧的摘要统计信息返回到一个新的数据帧中-能够选择每个初始数据帧中的列(值)来返回摘要统计信息。输出数据帧中的每一行对应于初始列表中的每个数据帧。 我可以使用for循环获得汇总统计信息输出,但它只会给我列表中最后一个数据帧的汇总统计信息,而不是列表中的所有数据帧。下面是一个for循环示例,它为我提供了列表中最后一个数据帧的输出统计信息。 for i in step2:
step3=i.describe() #gives me a single df of the last item (dataframe) in my list 下面是我的列表
我正在努力找出如何对熊猫做几个变形。我想要一个新的数据帧,其中包含来自原始列的值的总和。我还希望能够合并其中两个“相加”的数据帧。
示例#1:对列求和
之前:
A B C D
1 4 7 0
2 5 8 1
3 6 9 2
之后:
A B C D
6 15 24 3
现在,我正在获取感兴趣的列的总和,将它们存储在字典中,并从字典创建数据帧。我觉得有一种更好的方法来解决熊猫的问题,我看不到。
示例#2:合并“summed”数据帧
之前:
A B C D F
6
我有一个数据帧,它具有唯一的行名和唯一的列名。我想将行转换为列,并将列转换为行。
例如,下面的代码:
starting_df <- data.frame(row.names= c(LETTERS[1:4]),
a = c(1:4),
b = seq(0.02,0.08,by=0.02),
c = c("Aaaa","Bbbb","Cccc","Dddd")