我有一个名为‘df’的数据帧: Value Num
0 alpha 5
1 bravo 6
2 charlie 7 和一个名为‘Series _to_add’的序列: New Value
0 alpha
1 bravo
2 delta 我如何将序列的唯一值组合到现有的数据帧中,以获得如下所示: Value Num
0 alpha 5
1 bravo 6
2 charlie 7
3 delta nan
我得到了一个包含多个列的数据帧,包括一个用户ID (id)和一个时间戳(startTime)。我想检查每个用户我的数据(df行)跨越了多少天。
我目前正在通过将df拆分为'id',然后在循环中为每个子集dfs计算以下内容:
days = len(df.startTime.dt.date.unique())
如何在不拆分数据帧的情况下更有效地执行此操作?我正在处理相当大的数据帧,我担心这将花费太多的时间。我已经研究了groupby函数,但我并没有深入研究。我试过这样的方法:
result = df.groupby('id').agg({'days'
目前,我有一个庞大的数据集和一个非常小的例子如下所示。我想要做的是基于shift列提取行,并为的最后3行从score列中找到最大值,然后将整行提取到一个新的数据帧中。
例如:每一天有两班(白天和晚上),每班我都想为每班最后3行找到最高分数(例如:6月26日,shift>日,我想从last 3 score of the day shift,26 jun )中找到最高分数。我不想取每一个移位最大的分数并提取那一行),并提取整行并将其设置为新的dataframe。我想每天两班都这么做。
预期的dataframe输出如下:
我试图使用groupby来解决这个问题。但是,我不
我有一个pandas数据帧,格式如下: values
id
121 [Akjhks,Bsdfjhi,Idsfaf,Akjhks]
345 [Lkhiuy,Eqiyeri,Jewruq] 对于每个id中的唯一值,我需要获取id并将其附加到结果pandas dataframe,格式如下。 value_list Constant_#
Akjhks AK
Bsdfjhi AK
Idsfaf AK
Lkhiuy AK
Eqiyeri AK
Jewruq AK 我可以在valu
我有两个非索引数据帧,如下所示: df1
John Mullen 12/08/1993
Lisa Bush 06/12/1990
Maria Murphy 30/03/1989
Seth Black 21/06/1991
和df2
John Mullen 12/08/1993
Lisa Bush 06/12/1990
Seth Black 21/06/1991
Joe Maher 28/09/1990
Debby White 03/01/1992
我希望有一个数据增量,其中只有df2中的记录,而不是df1中的记录:即
假设我有一个数据帧,如下所示:
col1 col2 col3
a 1 a
a 98 xx
a 99 xy
b 1 a
b 2 b
b 3 c
b 8 xx
b 9 xy
我需要合并col3 = xx和xy中的行,这些行是按col1分组的,因此得到的数据帧如下所示:
col1 col2 col3
a 1 a
a 98 xz
b 1
我可以成功地删除重复的数据,并在现有的数据帧中更新行。当我编写这个数据文件时--一个已经有数据的csv --如何在dataframe中对csv执行相同的命令,以删除重复的数据并更新行。
df:
ID email date
0 a@a.com 2018-01-22
1 b@b.com 2018-01-20
csv:
ID email date
0 d@d.com 2018-01-22
我需要csv看起来像这样:
csv:
ID email date
0 a
我有一个数据帧df,看起来像这样:
key_1, key_2, country
12, a, US
12, a, US
12, b, US
12, c, NZ
23, d, PE
23, e, PE
23, e, PE
31, f, RO
31, f, RO
42, g, VI
我对满足以下条件的2个数据帧感兴趣(请为每个数据帧提供一个过程):
1-给定一个key_1,则存在多个唯一的key_2 AND一个唯一的国家。例如。
23, d, PE
23, e, PE
第二-给定一个key_1,存在多个唯一的key_2 AND多个唯一的国家。例如。
12, a, US
12, b, US
12,
我有两个要附加在一起的数据帧。以下是示例。
df_1:
Code Title
103 general checks
107 limits
421 horseshoe
319 scheduled
501 zonal
df_2
Code Title
103 hello
108 lucky eight
421 little toe
319 scheduled cat
503 new item
仅当df_2中的代码号在df_1中不存在时,我才想将df_2附加到df_1。
下面是我想要的数据帧:
C
我有一个包含组(区域)的数据,然后还提供了一个名称。我正在尝试合并两个数据帧。一个帧要小得多,它是“映射”数据帧。它为一个区域内的每个名称都有一行。另一个框架要大得多,它是“实例”数据框架。它有许多行,其中包含随区域变化的名称。我希望将来自映射帧的信息合并到实例帧中,以便每个实例都具有映射帧提供的对应信息。 我研究了Fuzzy包,但没有找到在组(Area列)中实现它的方法,也没有找到如何有效地将它与包含多个字符串的单元格一起使用,并尝试基于此进行匹配。 下面是一个类似数据的示例。合并需要从实例数据框中提取相关信息,以便将其映射到映射数据框。 映射数据帧 Area Name
A Ap
我有一个有很多列的数据帧,在这个操作中有两列焦点。一列包含重复的名称,另一列包含timedelta64。我想要获取timedelta64列元素最接近于零的行。下面的示例将更好地说明该操作。任何帮助都将不胜感激!!提前感谢!! 当前df Name Number Age Days
Tom 23 64 83 days
Tom 5 623 19 days
Tom 93 14 -5 days
Tom 28 12 75 days
Bess
我有两个数据帧: df: id Name Number Stat
1 co 4
2 ma 98
3 sa 0 df1: id Name Number Stat
1 co 4
2 ma 98 5% 我希望将两个数据帧合并到1 (dfnew)中,并希望如下所示: id Name Number Stat
1 co 4
2 m