我可能很难理解熊猫的分组,也很难产生按类别排列的直方图。
下面是我想要做的事情的一个例子。实际上,我正在遍历许多文件,从每一个文件中创建一个字典,然后将其添加到一个包含所有字典的列表中。然后将其转换为dataframe,并将日期字符串转换为datetime对象。
import pandas as pd
# Stand in for dictionaries created by looping over some files
d1={'fruit':'banana','vege':'spinach','date'
给定一个Dataframe (这是从包含名称和订单并每天更新的csv生成的):
# Note that this is just an example df and the real can have N names in n shuffled orders
df = pd.read_csv('names_and_orders.csv', header=0)
print(df)
names order
0 mike 0
1 jo 1
2 mary 2
3 jo 0
4 mike 1
5 ma
我有一份数据
Date rule_name
Jan 1 2016 A
Feb 4 2016 B
Jun 6 2016 C
Feb 5 2016 B
Feb 9 2016 D
Jun 5 2016 A
等等..。
我希望为每条规则获得一个数据数据,类似于下面的内容:例如,rule_name A的dataframe:
date counts (rule_name) %_rule_name
Jan 16 1 100
Feb 16 0 0
Jun 16
我试图尽可能高效地编写代码(这是尽可能避免循环),我已经找到了和,但它们似乎与我的问题无关。
假设有一个名为pd.DataFrame的df,它包含28个国家30年的每小时数据:
索引:datetime64[ns] (例如'1980-01-01 00:00:00')和
列:28个国家中每个国家的两位数的国家代码.
例如:
countrycode AT BE [...]
time
1980-01-01 00:00:00 0.016947
我有一些数据,我想从中提取不同产品(x和y)的收入时间序列(不同日期的Dollars总和,不同地点的Day总和,Where)。 import pandas as pd
#Create data
data = {'Day': [1,1,2,2,3,3],
'Where': ['A','B','A','B','B','B'],
'What': ['x','y','x',
我有一个从csv文件读取的Dataframe文件,有大约100万条记录和120个特性/列,我想在每一列中计算唯一值的数量。我可以使用for -循环分别为每一列执行此操作:
from dask import dataframe as dd
dask_df = dd.read_csv("train.csv")
for column in dask_df.columns:
print(dask_df[col].nunique().compute())
但是每次迭代时的计算都是非常昂贵的(每个工作人员拥有2GB的内存和2个vcore,每个工作人员有3个节点集群,每个工作人员需
我尝试使用dask中的describe() and unstack()函数来获取数据的汇总统计信息。 但是,我得到一个错误,如下所示 import dask.dataframe as dd
df = dd.read_csv('Measurement_table.csv',assume_missing=True)
df.describe().compute() #this works but when I try to use `unstack`, i get an error 实际上,我正在尝试让下面的python pandas代码在dask的帮助下更快地工作 df.grou
问题
我正在尝试将具有相同名称的多个列集聚合/组合到单个列集中。例如:
我有一个dataframe,它包含多个列,列名重复。例如,考虑一下这个例子,其中我有两个相同列名的多列的子集,如下所示:
A A A B B
0 cute tall tall NaN old
1 NaN NaN 5 NaN NaN
2 1 old NaN cute big
我的目标是将每个子集(AAA & BB)映射到它自己的单列子集。以下所需的输出说明了这一想法:
A_new B_new
0
我想在图上画2张线图,x轴是月份,y轴是每个城市每月的计数。
我按月做一个小组来计算每个城市的计数。
我的df:
city month
A 1
A 2
A 2
B 2
B 3
C 3
df['city'].groupby(df['month']).size().plot()
我想在x轴上看到两个线图,一个是A,一个是B。
上面的代码只给出了每个月的累积量,但是我希望每个城市的都有一个分类。
如何为城市列的不同值绘制2条线图?
是否可以遍历dask GroupBy对象来访问底层数据帧?我试过了:
import dask.dataframe as dd
import pandas as pd
pdf = pd.DataFrame({'A':[1,2,3,4,5], 'B':['1','1','a','a','a']})
ddf = dd.from_pandas(pdf, npartitions = 3)
groups = ddf.groupby('B')
for name, df in gro