14分钟
统计2
4. 统计类方法:(下面的DataFrame方法对于Series也适用)
DataFrame.mean([axis, skipna, level, ...]):沿着指定轴,计算平均值DataFrame.median([axis, skipna, level, ...]):沿着指定轴,计算位于中间大小的数DataFrame.var([axis, skipna, level, ddof, ...]):沿着指定轴,计算样本的方差DataFrame.std([axis, skipna, level, ddof, ...]):沿着指定轴,计算样本的标准差DataFrame.mad([axis, skipna, level]):沿着指定轴,根据平均值计算平均绝对离差DataFrame.diff([periods, axis]):沿着指定轴的一阶差分。periods为间隔。DataFrame.skew([axis, skipna, level, ...]):沿着指定轴计算样本的偏度(二阶矩)DataFrame.kurt([axis, skipna, level, ...]):沿着指定轴,计算样本的峰度(四阶矩)- 对随机变量 X,E(X^k),k=1,2,... 若存在,则称它为 X 的 k 阶原点矩,简称 k 阶矩。若 E[(X-E(X))^k],k=1,2,... 存在,则称它为 X 的 k 阶中心矩。
DataFrame.describe([percentiles, include, ...]):获取顺序统计量以及其他的统计结果。percentiles:一个array-like。每个元素都是0~1之间。如 0.5代表 50%分位include,exclude:指定包含/不包含哪些列(通过dtype来指定)。可以为None/'all',或者一个dtype列表
DataFrame.corr([method, min_periods]):计算任意两个列之间的非NAN的、按照索引对齐的值的相关系数。method为相关系数的类型,可以为:'pearson':标准的相关系数'kendall':Kendall Tau相关系数'spearman':Spearman rank相关系数
而
min_periods:一个整数。它指定为了生成一个有效的相关系数,每一对列数据的最短长度。DataFrame.corrwith(other[, axis, drop]):计算两个DataFrame的行-行、列-列的相关系数。axis:如果为0/'index'则沿着0轴,则计算列-列之间的相关系数。如果为1/'columns',则沿着1轴,计算行-行之间的相关系数drop:一个布尔值。如果为True,则如果某行/列都是NaN,则抛弃该行/列。如果为False,则返回全部。
DataFrame.cov([min_periods]):计算任意两列之间的协方差。min_periods指定为了生成一个有效的协方差,每一对列数据的最短长度。- 对于
Series,其调用为:Series.cov(other,[min_periods])
- 对于
5. 对于Series:唯一值、值计数、成员资格:
Series.unique():返回Series中唯一值组成的一维ndarraySeries.value_counts(normalize=False, sort=True, ascending=False,bins=None, dropna=True):对Series中的数进行计数。如果normalize为True,则返回频率而不是频数。sort为True则结果根据出现的值排序,排序方式由ascending指定。bins是一个整数或者None。如果它为整数,则使用半开半闭区间来统计,它给出了该区间的数量。
Series.isin(values):返回一个布尔数组,给出Series中各值是否位于values中。
DataFrame也有此方法。
6. 对于多级索引,可以通过level参数来指定在某个轴上的操作索引级别。如果level=None,则不考虑索引的多级。
学员评价