我有如下所示的数据集:
docs language instance
example 1 python 25
example 2 JS 15
example 3 python 0
example 4 JS 34
example 5 python 0
example 6 JS 0
我试图按语言对它们进行分组,然后使用以下代码从列'instance‘中计数非零值:
df['language'].groupby(df['inst
我想在具有相同行键的dataframe中总结行。
其目的是缩小数据集的大小。
例如,如果数据框架如下所示。
Fruit Count
Apple 10
Pear 20
Apple 5
Banana 7
Banana 12
Pear 8
Apple 10
我想让最后的数据看起来像这样。
Fruit Count
Apple 25
Pear 28
Banana 19
我正在使用Pytho
我有一个数据框架,有三个不同的列,A,B和C。我按命令在A、B和C列上应用了一个组。我还计算了no。每组三个值所拥有的行。
由此产生的数据:
现在,我希望将0和1(C列中的单元格值)作为列本身。另外,我希望将它们相加,并在单独的列(0和1列旁边)显示它们的和。期望产出:
A B Count0 Count1 Sum of Counts Count1/Sum of Counts
1000 1000 38 538 567 538/567
1000 1001 9
有3列,
ACCOUNT, DATE, AMOUNT
我正在尝试在pandas中做以下事情,并计划在group by output dataframe之后使用"sum“列来做更多的工作:
df_group_by=df.groupby('account').agg({'amount': [np.size, np.sum]},as_index=False).reset_index() # equal to "SELECT ACCOUNT, SUM(amount) as sum FROM table GROUP BY ACCOUNT;"
pr
对于以下df group participated
A 1
A 1
B 0
A 0
B 1
A 1
B 0
B 0 我想计算group列中每个值在participated列中的值总数(groupby- count ),然后计算每个组中有多少个1 就像这样 group tot_participated 1s
A 4 3
B 4 1 我知道第一部分很
我想从分组的Spark数据帧中计算一列中有多少条记录是真的,但我不知道如何在python中做到这一点。例如,我有一个包含region、salary和IsUnemployed列的数据,其中IsUnemployed是一个布尔值。我想看看每个地区有多少失业人员。我知道我们可以先做一个filter,然后再做groupby,但是我想同时生成两个聚合,如下所示
from pyspark.sql import functions as F
data.groupby("Region").agg(F.avg("Salary"), F.count("IsUnemploy
我有一个有三列的数据帧。我需要按名称分组并对Amount列求和,而仅当Fruit列满足特定条件时才对其进行计数。下面是一个数据帧外观的示例: Name Fruit Amount
Bob Apple 5
Bob Orange 7
Bill Apple 4
Bill Orange 8
Bill Apple 3 在本例中,我将Bob和Bill的名字组合在一起,将Apple和Orange的数量相加,但只计算Apple的出现次数,因此新的数据帧将如下所示: Name Sum Count
Bob 12 1
Bill 15 2
Python Pandas问题:
我有一个表,包含3列: From_City、To_City、Trip_Count和4行:
+-----------+---------+------------+ | From_City | To_City | Trip_Count | +-----------+---------+------------+ | Berlin | London | 2 | | London | Berlin | 3 | | Sydney | Tokyo | 4 | | Tokyo | Sy
在熊猫DataFrame中,是否有可能折叠具有相同值的列,并在另一列中对值进行汇总?
码
data = {"score":{"0":9.397,"1":9.397,"2":9.397995,"3":9.397996,"4":9.3999},"type":{"0":"advanced","1":"advanced","2":"advanced","3":"newbie
在Pandas中,如何在同一个数据集中进行多步/顺序聚合?好像每个步骤都是下一个步骤的“子查询”。
在SQL中,我可以这样想:
SELECT x.A, COUNT(x.B) as B_COUNT, SUM(x.C_SUM) as C_SUM
FROM (
SELECT df.A, df.B, SUM(df.C) as C_SUM
FROM df
GROUP BY df.A, df.B
) x
GROUP BY x.A
在Python3.4和Pandas0.19.2中工作,我有这样一个数据框架:
import pandas
import numpy
numpy.rand
我想总结一个csv文件中的列。相当多地提取列数据,并将其与相关评级和计数相匹配。 另外,你知道我应该如何匹配预期的数据帧和网站图像吗? website rate
1 two 5
2 two 3
3 two 5
4 one 2
5 one 4
6 one 4
7 one 2
8 one 2
9 two 2
website rate(over 5) count appeal(rate over 5 / count >= 0.5)
one 0
我有一个表格,如下所示。
Month,Count,Parameter
March 2015,1,40
March 2015,1,10
March 2015,1,1
March 2015,1,25
March 2015,1,50
April 2015,1,15
April 2015,1,1
April 2015,1,1
April 2015,1,15
April 2015,1,15
我需要从上面创建一个新表,如下所示。
Unique Month,Total Count,<=30
March 2015,5,3
April 2015,5,5
总之,我是python的新手。我正在尝试自动重塑我通常在excel中执行的操作,如下所示。
#Import long form data from CSV into pandas data frame
In 1: Data = [My Long Form DataFrame imported from a CSV file]
City Population
Chicago 1,245
Los Angeles 2,457
New York 998
Chicago 1,854
New York 1,654
Los Angeles 2,478
Los An
我有一只熊猫DataFrame。
LeafId pidx pidy count
1 x y 10
1 x y 20
1 x z 30
3 b q 10
1 x y 20
我们可以看到有多行pidx = x and pidy = y
我希望将count列和起来,并获得dataframe df2,如:
LeafId pidx pidy count
1 x y 50
在postgres sql中,如何执行涉及groupby (2列)上的计数的分析,但将数据集的输出限制为groupby中仅有1列的最大x行? | Groupby_1 | Groupby_2 |
|-----------|-----------|
| a | x |
| a | y |
| b | x |
| b | x |
| b | z | 限制前的预期输出 | Groupby_1 | Groupby_2 | Count |
|--
我有一个数据帧(df1),看起来像这样: Character Word Count
Leslie Knope 58
Child 9
Leslie Knope 13
Child 63 和另一个数据帧(df2),看起来像这样: Character Line Count
Leslie Knope 81
Child 1 我正在尝试在df2中创建一个新列,它是df1中基于两个数据集中通用的“字符名称”列的“Word Count”列的总和。输出应如下所示: Character Line Count