我想在具有相同行键的dataframe中总结行。
其目的是缩小数据集的大小。
例如,如果数据框架如下所示。
Fruit Count
Apple 10
Pear 20
Apple 5
Banana 7
Banana 12
Pear 8
Apple 10
我想让最后的数据看起来像这样。
Fruit Count
Apple 25
Pear 28
Banana 19
我正在使用Pytho
我有2列在一个DataFrame,我正在寻找以下解决方案在Python. 我的Dataframe当前如下所示: columns: INDUSTRY Revenue
Service 100
Manufacturing 50
Service 200
Manufacturing 100
Public 60 我想要的是DataFrame中每个行业类型的平均值: columns: INDUSTRY Revenue
我正在尝试用python编写不同的表名,这些表名是根据groupby函数为两列创建的不同数据帧来编写的。 list_dfs=[]
TT=Dataframe.groupby(['change','x2'])
for group,name in TT:
list_dfs.append(group)
writer = pd.ExcelWriter('output.xlsx')
def dt(_,g):
for _,g in Dataframe.groupby (Dataframe.index):
print (g)
我想知道在python中是否有一种简单的方法,只在两个连续行之间发生更改的情况下才返回我的DataFrame行的子集。例如,我的dataframe对象可能如下所示:
Date A B
20160713070000 20 21
20160713070100 20 23
20160713070128 20 23
20160713070128 21 24
20160713070134 23 24
在本例中,我希望返回以下dataframe对象:
Date A B
20160713070
我是一个相对的python,也是自然语言处理(NLP)的新手。
我有包含名字和销售的数据。我想: 1)列出所有的令牌,2)按每个令牌汇总销售。
下面是dataframe的一个示例:
name sales
Mike Smith 5
Mike Jones 3
Mary Jane 4
下面是所需的输出:
token sales
mike 8
mary 4
Smith 5
Jones 3
Jane 4
想想该怎么做?我在用Python。
在python 3.6和大熊猫0.19.0中有一个数据"df“
id
abc
abc
def
我正在尝试使用一个id_count列创建一个dataframe,该列与SQL相同:
SELECT id, COUNT(1) AS id_count FROM table group by id
理想回报:
id id_count
abc 2
def 1
我试过:
print (df.groupby(['id'])['id'].count())
返回
id
abc 2
def 1
print (df.groupby(['id'])['i
我有包含两列的dataframe:user和lang。每个用户都知道一种或多种语言:
lang user
0 Python Mike
1 Scala Mike
2 R John
3 Julia Michael
4 Java Michael
我需要为user中的每一行获取他/她知道的所有语言。我可以这样做:
df.groupby('user')['lang'].apply(lambda x:', '.join(x)).reset_index()
但我得到的是:
u
我正在研究dataframe,并希望按列(ID)分组,显示各自的标签并对每个标签进行计数。然后如何使用python为dataframe中的每个ID获取前2个标签?
data=
ID Label
A Apple
B Apple
B Apple
C Banana
C Pear
A Pear
B Apple
C Apple
A Banana
A Apple
C Pear
A Banana
B Pear
B Pear
B Banana
C Apple
我已经能够按ID和标签进行分组,也可以获得每个ID的计数,但我无法得到每个ID的前2
vagrant@ubuntu-xenial:~/lb/f5/v12$ python
Python 2.7.12 (default, Nov 12 2018, 14:36:49)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import pandas as pd
>>> data = [{'name': 'b
我有一个熊猫的数据,其中包括两栏,船名和延迟指示器。容器名称是容器的字符串名称,延迟指示器为0或1(布尔值)。
我的DataFrame:
df = pd.DataFrame({
"Vessel.Name": ["Spirit of British Columbia", "Queen of New Westminster", "Spirit of Vancouver Island", "Coastal Celebration", "Spirit of British Columbia"],
我在Python中有一个只有两列的dataframe。第一个值重复如下:
A B
apple 0.5
apple 0.8
apple 1.4
orange 0.4
orange 1.1
melon 0.3
melon 0.1
melon 0.9
melon 1.2
我想要做的是创建一个新的dataframe,其中包含第一个dataframe中每个值的平均值。例如:
A B
apple 0.9
orange 0.75
melon 0.625
该文件大约有2