数据集:
Item_Identifier Item_Weight Item_Fat_Content Item_Visibility \
0 FDA15 9.30低脂0.016047
1 DRC01 5.92常规0.019278
2 FDN15 17.50低脂肪0.016760
3 FDX07 19.20常规0.065953
4 NCD19 8.93低脂肪0.065953
Item_Type Item_MRP Outlet_Identifier \
0乳制品249.8092 OUT049
1软饮料48.2692 OUT018
2肉141.6180 OUT049
3水果和蔬菜182.0950 OUT010
4家庭53.8614 OUT013
Outlet_Establishment_Year Outlet_Size Outlet_Location_Type \
0 1999中级1
1 2009中级3
2 1999年中级1
3 1998年中级3
4 1987年高级别3
Outlet_Type Item_Type_new
0超市Type1易腐烂
1超市Type2不易腐烂
2超市Type1易腐烂
3杂货店易腐烂
4超市Type1不易腐烂
Pivotal Table: Index:Item_Type,Columns:Item Identifiers的子串,值:count。
预期输出:
DR FD NC
烘焙食品0 1086 0
面包0 416 0
早餐0 186 0
罐头0 1084 0
乳制品229 907 0
冷冻食品0 1426 0
水果和蔬菜0 2013 0
硬饮料362 0 0
健康与卫生0 0 858
家庭0 0 1548
肉0 736 0
其他0 0 280
海鲜0 89 0
Snack Foods 0 1989 0
软饮料726 0 0
Starchy Foods 0 269 0
发布于 2019-01-04 10:26:27
创建一个新列,它是Item_Identifier项的子字符串。然后根据它们创建pivot_table。
这是代码。(假设df是带有数据集的数据框)
df['Item_Identifier_substr'] = df['Item_Identifier'].str.left(2)
pivot_df = df.pivot_table(index = 'Item_Type', columns = 'Item_Identifier_substr', values='Item_Identifier', aggfunc='count')
pivot_df
https://stackoverflow.com/questions/-100008949
复制相似问题