我有一个python脚本,它创建服务器正常运行时间和性能数据的列表,其中每个子列表(或“行”)包含特定集群的统计数据。例如,格式很好的它看起来像这样:
-------  -------------  ------------  ----------  -------------------
Cluster  %Availability  Requests/Sec  Errors/Sec  %Memory_Utilization
-------  -------------  ------------  ----------  -------------------
ams-a    98.099          1012         678          91
bos-a    98.099          1111         12           91
bos-b    55.123          1513         576          22
lax-a    99.110          988          10           89
pdx-a    98.123          1121         11           90
ord-b    75.005          1301         123          100
sjc-a    99.020          1000         10           88
...(so on)...因此,在列表形式中,它可能如下所示:
[[ams-a,98.099,1012,678,91],[bos-a,98.099,1111,12,91],...]我的问题是:确定每列中的异常值的最佳方法是什么?或者,异常值不一定是解决发现“坏”问题的最好方法?在上面的数据中,我肯定想知道bos-b和ord b,以及ams a,因为它的错误率很高,但其他的可以丢弃。根据列的不同,由于更高不一定更差,也不一定更低,我正在尝试找出最有效的方法来做到这一点。似乎numpy在这类事情上经常被提及,但甚至不确定从哪里开始(遗憾的是,我更像是系统管理员而不是统计学家……)。
提前感谢!
https://stackoverflow.com/questions/4606288
复制相似问题