我尝试使用pandas dataframe来检索结果,以获得相同的结果
这是我的SQL查询:
SELECT strftime('%m', date_report) as month, count(*) as total_infector
from cases
where has_travel_history = 't' and age >= '50'
group by month
order by total_infector desc limit 2
使用pandas数据帧:
import pandas as pd
df = pd
如果我将csv文件读入熊猫的dataframe中,然后使用groupby (pd.groupby(column1,.)),为什么不能在新的分组对象上调用to_excel属性。
import pandas as pd
data = pd.read_csv("some file.csv")
data2 = data.groupby(['column1', 'column2'])
data2.to_excel("some file.xlsx") #spits out an error about series lacking the a
我想要一些基于.groupby() in pandas的%的费率。我的目标是取一个指标列Ind,得到A(分子)除以当年的总数(A+B)的比率。
示例数据:
import pandas as pd
import numpy as np
df: pd.DataFrame = pd.DataFrame([['2011','A',1,2,3], ['2011','B',4,5,6],['2012','A',15,20,4],['2012','B',17,12,12]], co
Group by是有问题的,因为我切换到PHP7,并且聚合值并不适用于我想要使用它的方式。
我有一个列表,有时列表中会有重复的部分。例如:
歌曲标题A歌曲标题B歌曲标题A(重复)歌曲标题C
在结果中,歌曲标题A应该只出现一次。以前,我使用group by实现了这一点,其中确定歌曲标题的ID是分组的。
我的表结构是:
id
group_id
song_title_id
Song_title_id与以下内容相关:
id
song_title
在第一个表中,同一song_title_id可以有多个实例。当返回结果时,我希望在结果中只有每个song_title_id的一个实例。
在此之前,我会这样做:
我有一个类似下面的表-唯一的ID和名称。我想返回任何重复的名字(基于匹配的第一个和最后一个)。 Id First Last
1 Dave Davis
2 Dave Smith
3 Bob Smith
4 Dave Smith 如果我没有ID列,我已经设法返回了所有列的重复计数。 import pandas as pd
dict2 = {'First': pd.Series(["Dave", "Dave", "Bob"
我有一个从csv文件中提取的数据。我想迭代一个数据进程,其中只有一些列的数据是n行的平均值,而其余的列是每个迭代的第一行。
例如,从csv提取的数据由100行6列组成。我有一个变量n_AVE = 6,它告诉代码将数据平均为每6行。
rawDf = pd.read_csv(outputFilePath / 'Raw_data.csv', encoding='CP932')
OUT:
TIME A B C D E
0 2021/3/4 148 0 142
我有一个df:
Type price stock
a 2 2
b 4 1
b 3 3
a 1 2
a 3 1
我想得到的结果是:
Type price*stock
a 2*2+1*2+3*1 = 9
b 4*1+3*3 = 13
我可以很容易地在Excel中完成,但是在Pandas中呢?我尝试过groupby函数,但仍然失败:
对于我的作业,我应该使用matplotlib在地图上绘制20个飓风的轨迹。然而,当我运行我的代码时,我得到了错误:AssertionError:Grouper and axis must be the same length
下面是我的代码:
import numpy as np
from mpl_toolkits.basemap import Basemap
import matplotlib.pyplot as plt
from PIL import *
fig = plt.figure(figsize=(12,12))
ax = fig.add_axes([0.1,0.1,0.8,0
我正试图做如下所示的工作。
Input Output
Letter Number A B C
A 1 1 1 1
A 2 2 2 2
B 1 3 3
B 2 4
B 3
C 1
C 2
C 3
C 4
我已经编写了下面的代码,它运行得很好。
import pandas as pd
df = pd.read_excel('Test.xlsx')
df = df.pivot(columns=