我想知道如何通过Python计算每个类别的每一行是高于平均值还是低于平均值?我有一个名为test.csv的csv文件。例如,类别2,我有两个值。首先,我需要计算该类别的平均值,然后每个值是高于还是低于平均百分比。我不知道后者该怎么做。 import pandas as pd
import numpy as np
#loading the data into data frame
X = pd.read_csv('test.csv') 感兴趣的两列是Category和Totals列: Category Totals estimates
2 2777 043
我有99个人的年收入数据:
import pandas, random
incomes = pandas.DataFrame({'income':[round(random.triangular(20,80,200),0) for i in range(99)]})
如何:
将他们分成3个分位数,“贫穷”、“中等”、“富有”,每个分位数为的平均收入。
抱歉,听起来像个新手的问题。我在学习。谢谢!
假设我有一个包含过去三年的职称和薪水的数据集,我想要计算第一年到最后一年平均工资的差额。
使用Pandas,我会怎么做呢?我已经成功地创建了一个df,其中包含了每年的平均薪资,但我想我想要做的是:“对于数据科学家,用2020年的平均工资减去2022年的平均工资”,然后遍历所有做同样事情的job_titles。
work_year job_title salary_in_usd
0 2020 AI Scientist 45896.000000
1 2020 BI D
假设我有一个名为df的数据框架,如下所示:
id x y
1 10 A
2 12 B
3 10 B
4 4 C
5 9 A
6 15 A
7 6 B
现在我想将数据按y列分组,并得到每个组的2个最大值(x)的平均值,其结果如下
y
A (10+15)/2 = 12.5
B (12 + 10)/2 = 11
C 4
如果我试着用df.groupby('y')['x'].nlar
我正在处理表示向量(幅度和方向)的时序数据。我想要我的数据,并使用describe函数作为how参数。
但是,describe方法使用标准平均值,我想使用一个特殊的函数来平均方向。因此,我在pandas.Series.describe()实现的基础上实现了我自己的describe方法
def directionAverage(x):
result = np.arctan2(np.mean(np.sin(x)), np.mean(np.cos(x)))
if result < 0:
result += 2*np.pi
return result
d
我有一张桌子,上面有一堆收视率。每个评级都有一个名为"i_id“的外键,将其链接到特定的机构。当然,有很多评级,而且其中很多评级都是相同的i_id。我想知道是否有任何方法可以使用AVG() SQL函数来获得每个i_id的所有评分的平均值。 这个查询是我尝试过的: SELECT AVG(rating), i_id FROM `health_rating` WHERE 1 但我得到的结果是表中所有评级的单一平均值,而不考虑i_id。 ? and this is the single result i am getting.
我想对一个多索引的pandas序列执行聚合,如下所示:
revenue =
date person shift
2017-10-19 Adams A 298.70
Smith B 593.46
B_Overtime 77.71
2017-10-20 Conner A 473.08
Adams B 441.35
使用:Python3.6,Pandas 0.22
我有一个.csv文件,我需要根据这个月和位置得到一个平均值。这是数据中的一行,有更多的多个位置和日期:
NAME DATE SNOW GRAND RAPIDS GERALD R FORD INTERNATIONAL AIRPORT, MI US 1/1/2016, 0.7
到目前为止,我已经成功地根据月和平均每月对信息进行了排序:
df2 = pd.read_csv("Data.csv")
gname = df2.groupby('NAME')
for NAME, NAME_df2 in gnam
如何使用'count‘列计算所有列的平均值。我在下面的代码中使用随机生成的值创建了一个数据帧。
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(10,10)*100/10).astype(int)
df
output:
A B C D E F G H I J
0 4 3 2 8 5 0 9 9 0 5
1 1 5 8 0 5 9 8 3 9 1
2 9
尝试优化MySQL查询,该查询使用Group和Max。试图获得最新更新的框架,这些框架在任何过去的日期之前都是活动的。
审计框架表结构:
id bigint pk AI
frame_id bigint fk
name VARCHAR(50)
active int
createdOn DATETIME
updatedOn DATETIME
deletedOn DATETIME
id、frame_id和updatedOn有单独的索引。
当前查询:
SELECT MAX(id) as id1
FROM audit_frame_master
WHERE updatedOn <='
假设我创建了以下Pandas系列,其中包含三个不同站点10年来的一些每日测量数据
import numpy as np
import pandas as pd
stations = ['a', 'b', 'c']
dates = pd.date_range(start = '2000-01-01', end = '2009-12-31')
index = [(stations[i], dates[j]) for i in range(len(stations)) for j in range(len(
我有一个从csv文件中提取的数据。我想迭代一个数据进程,其中只有一些列的数据是n行的平均值,而其余的列是每个迭代的第一行。
例如,从csv提取的数据由100行6列组成。我有一个变量n_AVE = 6,它告诉代码将数据平均为每6行。
rawDf = pd.read_csv(outputFilePath / 'Raw_data.csv', encoding='CP932')
OUT:
TIME A B C D E
0 2021/3/4 148 0 142