这里是pandas和dataframes的新手!初始数据帧: A 1238 100
A 1238 90
A 3784 200
A 3784 500
B 1222 274
B 1222 400
C 2747 800
C 1384 100 我需要这样的输出:(C列是A列和B列的分组数据的最小值,B列是分组数据的顺序计数器): A 1 90
A 2 200
B 1 274
C 1 800
C 2 100 帮助!
是否有更有效的方法使用熊猫群或pandas.core.groupby.DataFrameGroupBy对象创建一个独特的列表,系列或数据,在这里,我想要两个独特的组合N列。例如,如果我有列:日期、名称、购买的项目--我只想知道唯一的名称和日期组合--这很好:
y = x.groupby(['Date','Name']).count()
y = y.reset_index()[['Date', 'Name']]
但我觉得应该有个更干净的方法
y = x.groupby(['Date','Name'])
我有一个pandas数据帧,其中包含如下数据: levels char_1 char_2
a dog dog
a cat dog
b cow cat
b dog dog 我想对levels列执行group_by操作,并计算某个值在char_1列或char_2列中出现的总次数 生成的数据帧将如下所示: levels char count
a dog 3
a cat 1
b dog 2
b cow 1
b cat 1 我已经尝试过使用数据透视表,但是我
我有一个数据框架,其中包含从StackOverflow帖子中提取的下位词和上位词对。您可以在以下内容中看到其中的摘录: 0 1 2 3 4
linq query asmx web service THH 10 a linq query as an asmx web service
application bolt THH 1 my application is a bolt on data visualization...
area r time
我有一个熊猫数据列表,我想对所有的熊猫执行一个模式操作。
所有数据文件都有相同的布局:
date是dt.date对象,感情是整数(-1、0或1)。我想得到一个数据组的日期,情感是原始的模式(或一个模式的列表,如果有更多)。
我用它来聚合:
df = df.groupby('date').agg(pd.Series.mode)
它可以很好地处理几乎所有的数据文件,其中只有一个返回一个错误:
File "..\lib\site-packages\pandas\core\apply.py", line 420, in agg_list_like
rais
我有一个包含一列整数的Pandas DataFrame。我正在尝试使用一个for循环来仅提取'Artist‘列与'The Beatles’匹配的那个DataFrame的计数值。 tot=[]
for art in df:
for df['Artist'] in art:
if art['Artist'] == 'The Beatles':
tot.append(artist['Count'])
The Dataframe format is as such
我在pandas dataframe中有一个如下所示的数据集: Name Shift Data Type
Peter 0 12 A
Peter 0 13 A
Peter 0 14 B
Sam 1 12 A
Sam 1 15 A
Sam 1 16 B
Sam 1 17 B
Mary 2 20 A
Mary 2 21 A
Mary 2 12
我知道如何在Pandas中读取数据框架并进行基本操作,但是如何基于ID列填充order列?例如,如果自行车发生了两次,如下图所示,我如何填充订单列,其中第一次出现1次,第二次发生2次,然后对汽车执行同样的操作。
ID Color Order?????
bike red 1
bike black 2
car green 1
car orange 2
car blue 3
我想从我的一个Pandas数据框列中创建一个唯一值的计数,然后将具有这些计数的新列添加到我的原始数据框中。我试过几种不同的方法。我创建了一个pandas序列,然后使用value_counts方法计算计数。我尝试将这些值合并回我的原始数据帧,但我希望合并的键在Index(ix/loc)中。
Color Value
Red 100
Red 150
Blue 50
我想返回如下内容:
Color Value Counts
Red 100 2
Red 150 2
Blue 50 1
我有一个包含2列的数据帧,如下所示:
Index Year Country
0 2015 US
1 2015 US
2 2015 UK
3 2015 Indonesia
4 2015 US
5 2016 India
6 2016 India
7 2016 UK
我想创建一个新的数据帧,其中包含每年国家的最大计数。新的数据帧将包含3列,如下所示:
Index Year Countr
我有一个类似下面的表-唯一的ID和名称。我想返回任何重复的名字(基于匹配的第一个和最后一个)。 Id First Last
1 Dave Davis
2 Dave Smith
3 Bob Smith
4 Dave Smith 如果我没有ID列,我已经设法返回了所有列的重复计数。 import pandas as pd
dict2 = {'First': pd.Series(["Dave", "Dave", "Bob"
我有一个示例数据集,如:
Datetime value
1.10.2020 x
1.10.2020 y
2.10.2020 x
3.10.2020 z
3.10.2020 x
3.10.2020 y
4.10.2020 x
4.10.2020 y
5.10.2020 x
5.10.2020 z
我希望根据每个唯一值在列值中出现的次数来绘制累积和。在这种情况下,图中将有三行,标签x、y、z. y轴有出现的累积和(例如x= 5),x轴有datetime列。
在Pandas中,如何在同一个数据集中进行多步/顺序聚合?好像每个步骤都是下一个步骤的“子查询”。
在SQL中,我可以这样想:
SELECT x.A, COUNT(x.B) as B_COUNT, SUM(x.C_SUM) as C_SUM
FROM (
SELECT df.A, df.B, SUM(df.C) as C_SUM
FROM df
GROUP BY df.A, df.B
) x
GROUP BY x.A
在Python3.4和Pandas0.19.2中工作,我有这样一个数据框架:
import pandas
import numpy
numpy.rand
我有如下所示的数据集:
id value
a 0
a 0
a 0
a 0
a 1
a 2
a 2
a 2
b 0
b 0
b 1
b 2
b 2
我希望按" id“列进行分组,并获取"value”列中的观察数,并在原始数据集中返回一个新列,该列计算"value“观察在每个id中发生的次数。
我正在寻找的输出示例在“output”列中表示:
id value output
a 0 4
a 0
我有以下熊猫数据(仅举一个例子):
import pandas as pd
df = pd.DataFrame(pd.Series(['a','a','a','b','b','c','c','c','c','b','c','a']), columns = ['Data'])
Data
0 a
1 a
2 a
3 b
4 b
5 c
6