我有一个有三列的数据帧。我需要按名称分组并对Amount列求和,而仅当Fruit列满足特定条件时才对其进行计数。下面是一个数据帧外观的示例: Name Fruit Amount
Bob Apple 5
Bob Orange 7
Bill Apple 4
Bill Orange 8
Bill Apple 3 在本例中,我将Bob和Bill的名字组合在一起,将Apple和Orange的数量相加,但只计算Apple的出现次数,因此新的数据帧将如下所示: Name Sum Count
Bob 12 1
Bill 15 2
我使用python和pandas调用带有元组Time、Name、Good、Bad的Excel数据。 我想将数据帧重新处理为满足特定条件的另一个数据帧。 具体地说,我想打印出一个数据帧,它存储了整个时间内每个名称的好数据和坏数据的总和。 请帮助我谁知道蟒蛇,熊猫。 enter image description here
我有一个关于根据other列的总和创建pandas数据帧的问题。
例如,我有这样的数据帧
Country | Accident
England Car
England Car
England Car
USA Car
USA Bike
USA Plane
Germany Car
Thailand Plane
我想制作另一个基于国家/地区的所有事故总和的数据帧。我们将忽略事故的类型,而根据
我有一个pandas数据帧,如下所示:
Name Missed Credit Grade
A 1 3 10
A 1 1 12
B 2 3 10
B 1 2 20
我想要的输出是:
Name Sum1 Sum2 Average
A 2 4 11
B 3 5 15
基本上是得到列Credit和Missed的和,
我有两个熊猫数据帧,第一个数据帧的结构如下:
df1 :
id | age | sexe | language | country |
----|-----|------|----------|---------|
1 | 35 | M | FR | FR |
2 | 20 | F | EN | EN |
3 | 60 | M | IT | IT |
第二个结构如下:
df2 :
id | act| secs |
----|----|-------|
1 | A | 5
我有一个下面的数据框
df=pd.DataFrame({"A":np.random.randint(1,10,9),"B":np.random.randint(1,10,9),"C":list('abbcacded')})
A B C
0 9 6 a
1 2 2 b
2 1 9 b
3 8 2 c
4 7 6 a
5 3 5 c
6 1 3 d
7 9 9 e
8 3 4 d
我想得到下面的分组结果(带有key="C“列),并且有意丢弃了行c、d和e。
我有一个熊猫数据框,看起来像是
Name Date Value
Sarah 11-01-2015 3
Sarah 11-02-2015 2
Sarah 11-03-2015 27
Bill 11-01-2015 42
Bill 11-02-2015 5
Bill 11-03-2015 15
.... (a couple hundred rows)
我如何获得这些值的30天(或x天)滚动总和,这些值由'Name‘列中的任何人细分?
我正在清理数据,并有一个问题。我有一个联系人数据集和一个帐户数据集。我需要在“ContactID”上合并这两个数据帧。某些ContactID有多个帐户。因此,当我合并它们时,仍然有一些ContactID有多行。我需要组合这些行,以便将数字列相加在一起,同时仍然保留分类列。下面是一个示例: 当我合并时: ContactID Value Type
1 800 A
1 70
我想写一段python代码,例如有2个不同的DataFrames (数据帧的数量可以超过2个),如下所示: df1 =
Index Name Age Height
0 Tom 20 166
1 Bill 27 170
2 Jacob 39 180
3 Vivian 26 155 df2 =
Index Name Age Height
0 Mary 20 166
1
我有一个像这样的数据帧
name counts
one [2,5]
two [3,4]
one [5,9]
我想对它进行分组,并将计数和所有列表值放在一起,如下所示
one 2 [2, 5, 5, 9]
two 1 [3,4]
我熟悉python dataframe中的group by,但不确定如何获取计数并将所有值组合到列表中。
df = pd.DataFrame({'x':[1,2,3,4,5,6],'y':[7,8,9,10,11,12],'z':['a','a','a','b','b','b']})
i = pd.Index([0,3,5,10,20]) i中的索引来自较大的数据帧,而df是该较大数据帧的子集。因此,i中将会有不在df中的索引。当我这样做的时候 df.groupby('z').aggregate({'y':lambda x