首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >熊猫拆解计数栏

熊猫拆解计数栏
EN

Stack Overflow用户
提问于 2015-02-27 13:07:57
回答 1查看 416关注 0票数 2

阅读其他问题,(1),我的印象是熊猫做盒子图,或做最好的统计分析时,数据是以以下格式:

代码语言:javascript
运行
复制
    stimulus    vote
0          1       0
1          1       1
2          1       1
3          1       1
4          1       2
5          1       2
6          1       2
7          1       2
8          1       2
9          1       2
10         1       3
11         1       3
12         1       3
13         1       3

其中stimulus是我的自变量,vote是给它的每个分数。

然而,我的数据已经按rating分组了,另一列votes显示了每次投票的.count()

代码语言:javascript
运行
复制
    stimulus  rating  votes
0          1       0      1
1          1       1      3
2          1       2      6
3          1       3      4

再说一遍,stimulus是我的IV,rating是分数,votes是给每个分数的票数。

我现在在使用这种格式时遇到了困难,我甚至无法找到如何将这些数据转换回“叠层”或“记录”格式。

最后我想

  • 将数据绘制为方框图
  • 执行Kruskal-Wallis H-测试
EN

回答 1

Stack Overflow用户

发布于 2015-02-27 13:56:58

代码语言:javascript
运行
复制
import numpy as np
import pandas as pd

df = pd.read_table('data', sep='\s+')

stacked = pd.DataFrame({key: np.repeat(df[key].values, df['votes'])
                        for key in ('rating', 'stimulus')})

收益率

代码语言:javascript
运行
复制
    rating  stimulus
0        0         1
1        1         1
2        1         1
3        1         1
4        2         1
5        2         1
6        2         1
7        2         1
8        2         1
9        2         1
10       3         1
11       3         1
12       3         1
13       3         1

您发布的作为vote列的内容,我称之为rating列。如果我正确理解您的情况,则stacked vote/rating列中的值是分级。因此,我认为调用列rating是合适的。(此外,它允许我用一个词理解-好的,我承认--这是改变名字的真正原因。):)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28765891

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档