我有如下所示的数据集:
docs language instance
example 1 python 25
example 2 JS 15
example 3 python 0
example 4 JS 34
example 5 python 0
example 6 JS 0
我试图按语言对它们进行分组,然后使用以下代码从列'instance‘中计数非零值:
df['language'].groupby(df['inst
我想在具有相同行键的dataframe中总结行。
其目的是缩小数据集的大小。
例如,如果数据框架如下所示。
Fruit Count
Apple 10
Pear 20
Apple 5
Banana 7
Banana 12
Pear 8
Apple 10
我想让最后的数据看起来像这样。
Fruit Count
Apple 25
Pear 28
Banana 19
我正在使用Pytho
我有一个数据框架,有三个不同的列,A,B和C。我按命令在A、B和C列上应用了一个组。我还计算了no。每组三个值所拥有的行。
由此产生的数据:
现在,我希望将0和1(C列中的单元格值)作为列本身。另外,我希望将它们相加,并在单独的列(0和1列旁边)显示它们的和。期望产出:
A B Count0 Count1 Sum of Counts Count1/Sum of Counts
1000 1000 38 538 567 538/567
1000 1001 9
有3列,
ACCOUNT, DATE, AMOUNT
我正在尝试在pandas中做以下事情,并计划在group by output dataframe之后使用"sum“列来做更多的工作:
df_group_by=df.groupby('account').agg({'amount': [np.size, np.sum]},as_index=False).reset_index() # equal to "SELECT ACCOUNT, SUM(amount) as sum FROM table GROUP BY ACCOUNT;"
pr
对于以下df group participated
A 1
A 1
B 0
A 0
B 1
A 1
B 0
B 0 我想计算group列中每个值在participated列中的值总数(groupby- count ),然后计算每个组中有多少个1 就像这样 group tot_participated 1s
A 4 3
B 4 1 我知道第一部分很
我想从分组的Spark数据帧中计算一列中有多少条记录是真的,但我不知道如何在python中做到这一点。例如,我有一个包含region、salary和IsUnemployed列的数据,其中IsUnemployed是一个布尔值。我想看看每个地区有多少失业人员。我知道我们可以先做一个filter,然后再做groupby,但是我想同时生成两个聚合,如下所示
from pyspark.sql import functions as F
data.groupby("Region").agg(F.avg("Salary"), F.count("IsUnemploy
我有一个有三列的数据帧。我需要按名称分组并对Amount列求和,而仅当Fruit列满足特定条件时才对其进行计数。下面是一个数据帧外观的示例: Name Fruit Amount
Bob Apple 5
Bob Orange 7
Bill Apple 4
Bill Orange 8
Bill Apple 3 在本例中,我将Bob和Bill的名字组合在一起,将Apple和Orange的数量相加,但只计算Apple的出现次数,因此新的数据帧将如下所示: Name Sum Count
Bob 12 1
Bill 15 2
Python Pandas问题:
我有一个表,包含3列: From_City、To_City、Trip_Count和4行:
+-----------+---------+------------+ | From_City | To_City | Trip_Count | +-----------+---------+------------+ | Berlin | London | 2 | | London | Berlin | 3 | | Sydney | Tokyo | 4 | | Tokyo | Sy
在熊猫DataFrame中,是否有可能折叠具有相同值的列,并在另一列中对值进行汇总?
码
data = {"score":{"0":9.397,"1":9.397,"2":9.397995,"3":9.397996,"4":9.3999},"type":{"0":"advanced","1":"advanced","2":"advanced","3":"newbie
我想总结一个csv文件中的列。相当多地提取列数据,并将其与相关评级和计数相匹配。 另外,你知道我应该如何匹配预期的数据帧和网站图像吗? website rate
1 two 5
2 two 3
3 two 5
4 one 2
5 one 4
6 one 4
7 one 2
8 one 2
9 two 2
website rate(over 5) count appeal(rate over 5 / count >= 0.5)
one 0
在Pandas中,如何在同一个数据集中进行多步/顺序聚合?好像每个步骤都是下一个步骤的“子查询”。
在SQL中,我可以这样想:
SELECT x.A, COUNT(x.B) as B_COUNT, SUM(x.C_SUM) as C_SUM
FROM (
SELECT df.A, df.B, SUM(df.C) as C_SUM
FROM df
GROUP BY df.A, df.B
) x
GROUP BY x.A
在Python3.4和Pandas0.19.2中工作,我有这样一个数据框架:
import pandas
import numpy
numpy.rand
我有一个表格,如下所示。
Month,Count,Parameter
March 2015,1,40
March 2015,1,10
March 2015,1,1
March 2015,1,25
March 2015,1,50
April 2015,1,15
April 2015,1,1
April 2015,1,1
April 2015,1,15
April 2015,1,15
我需要从上面创建一个新表,如下所示。
Unique Month,Total Count,<=30
March 2015,5,3
April 2015,5,5
总之,我是python的新手。我正在尝试自动重塑我通常在excel中执行的操作,如下所示。
#Import long form data from CSV into pandas data frame
In 1: Data = [My Long Form DataFrame imported from a CSV file]
City Population
Chicago 1,245
Los Angeles 2,457
New York 998
Chicago 1,854
New York 1,654
Los Angeles 2,478
Los An
我有一只熊猫DataFrame。
LeafId pidx pidy count
1 x y 10
1 x y 20
1 x z 30
3 b q 10
1 x y 20
我们可以看到有多行pidx = x and pidy = y
我希望将count列和起来,并获得dataframe df2,如:
LeafId pidx pidy count
1 x y 50
在postgres sql中,如何执行涉及groupby (2列)上的计数的分析,但将数据集的输出限制为groupby中仅有1列的最大x行? | Groupby_1 | Groupby_2 |
|-----------|-----------|
| a | x |
| a | y |
| b | x |
| b | x |
| b | z | 限制前的预期输出 | Groupby_1 | Groupby_2 | Count |
|--
我有一个数据帧(df1),看起来像这样: Character Word Count
Leslie Knope 58
Child 9
Leslie Knope 13
Child 63 和另一个数据帧(df2),看起来像这样: Character Line Count
Leslie Knope 81
Child 1 我正在尝试在df2中创建一个新列,它是df1中基于两个数据集中通用的“字符名称”列的“Word Count”列的总和。输出应如下所示: Character Line Count