阅读其他问题,(1),我的印象是熊猫做盒子图,或做最好的统计分析时,数据是以以下格式:
stimulus vote
0 1 0
1 1 1
2 1 1
3 1 1
4 1 2
5 1 2
6 1 2
7 1 2
8 1 2
9 1 2
10 1 3
11 1 3
12 1 3
13 1 3
其中stimulus
是我的自变量,vote
是给它的每个分数。
然而,我的数据已经按rating
分组了,另一列votes
显示了每次投票的.count()
。
stimulus rating votes
0 1 0 1
1 1 1 3
2 1 2 6
3 1 3 4
再说一遍,stimulus
是我的IV,rating
是分数,votes
是给每个分数的票数。
我现在在使用这种格式时遇到了困难,我甚至无法找到如何将这些数据转换回“叠层”或“记录”格式。
最后我想
发布于 2015-02-27 13:56:58
import numpy as np
import pandas as pd
df = pd.read_table('data', sep='\s+')
stacked = pd.DataFrame({key: np.repeat(df[key].values, df['votes'])
for key in ('rating', 'stimulus')})
收益率
rating stimulus
0 0 1
1 1 1
2 1 1
3 1 1
4 2 1
5 2 1
6 2 1
7 2 1
8 2 1
9 2 1
10 3 1
11 3 1
12 3 1
13 3 1
您发布的作为vote
列的内容,我称之为rating
列。如果我正确理解您的情况,则stacked
vote/rating
列中的值是分级。因此,我认为调用列rating
是合适的。(此外,它允许我用一个词理解-好的,我承认--这是改变名字的真正原因。):)
https://stackoverflow.com/questions/28765891
复制相似问题