我有一个包含多列的数据格式。
df= pd.DataFrame({
'Name': ['Peter', 'Peter', 'Peter', 'Jake', 'Jake'],
'Product' : ['A', 'B', 'C', 'A', 'B']
})
Name Product
0 Peter A
1 Peter B
2 Peter
我想按两列(部门和产品线)对数据框进行分组,并输出一个新的数据框,其中包含每个部门和产品线的选定逻辑值的计数。原始数据的结构如下:
product department line date
apple A big 201707
cherry A midlle 201609
potato B midlle 201801
peach C small 201807
pear B big 201807
日期是数字,其他变量是字符。
我想添加两列x和y,其中x表示日期是2018年,y表示日期是201807。按部门和行分组,并按降序
我尝试根据条件为数据框中的新列赋值,无论第一列是否包含某个字母。如果第一列只包含一个字母,我使用伪变量函数。但是,如果第一列包含数字、字符串和Nan呢?
下面是一个示例:
# Before
c1
0 a
1 2
2 b
3 c
4 ab
5 bc
6 NaN
#After
c1 a b c
0 a 1 0 0
1 2 0 0 0
2 b 0 1 0
3 c 0 0 1
4 ab 1 1 0
5 bc 0 1 1
6 NaN 0 0 0
我