文章/答案/技术大牛

发布

问熊猫拆解计数栏
EN

Stack Overflow用户

提问于 2015-02-27 13:07:57

回答 1查看 416关注 0票数 2

阅读其他问题，(1)，我的印象是熊猫做盒子图，或做最好的统计分析时，数据是以以下格式：

    stimulus    vote
0          1       0
1          1       1
2          1       1
3          1       1
4          1       2
5          1       2
6          1       2
7          1       2
8          1       2
9          1       2
10         1       3
11         1       3
12         1       3
13         1       3

其中stimulus是我的自变量，vote是给它的每个分数。

然而，我的数据已经按rating分组了，另一列votes显示了每次投票的.count()。

    stimulus  rating  votes
0          1       0      1
1          1       1      3
2          1       2      6
3          1       3      4

再说一遍，stimulus是我的IV，rating是分数，votes是给每个分数的票数。

我现在在使用这种格式时遇到了困难，我甚至无法找到如何将这些数据转换回“叠层”或“记录”格式。

最后我想

将数据绘制为方框图
执行Kruskal-Wallis H-测试

python

pandas

回答 1

Stack Overflow用户

发布于 2015-02-27 13:56:58

import numpy as np
import pandas as pd

df = pd.read_table('data', sep='\s+')

stacked = pd.DataFrame({key: np.repeat(df[key].values, df['votes'])
                        for key in ('rating', 'stimulus')})

收益率

    rating  stimulus
0        0         1
1        1         1
2        1         1
3        1         1
4        2         1
5        2         1
6        2         1
7        2         1
8        2         1
9        2         1
10       3         1
11       3         1
12       3         1
13       3         1

您发布的作为vote列的内容，我称之为rating列。如果我正确理解您的情况，则stacked vote/rating列中的值是分级。因此，我认为调用列rating是合适的。(此外，它允许我用一个词理解-好的，我承认--这是改变名字的真正原因。):)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28765891

复制

相似问题

问熊猫拆解计数栏
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫拆解计数栏EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫拆解计数栏
EN