14分钟
统计2
4. 统计类方法:(下面的DataFrame
方法对于Series
也适用)
DataFrame.mean([axis, skipna, level, ...])
:沿着指定轴,计算平均值DataFrame.median([axis, skipna, level, ...])
:沿着指定轴,计算位于中间大小的数DataFrame.var([axis, skipna, level, ddof, ...])
:沿着指定轴,计算样本的方差DataFrame.std([axis, skipna, level, ddof, ...])
:沿着指定轴,计算样本的标准差DataFrame.mad([axis, skipna, level])
:沿着指定轴,根据平均值计算平均绝对离差DataFrame.diff([periods, axis])
:沿着指定轴的一阶差分。periods
为间隔。DataFrame.skew([axis, skipna, level, ...])
:沿着指定轴计算样本的偏度(二阶矩)DataFrame.kurt([axis, skipna, level, ...])
:沿着指定轴,计算样本的峰度(四阶矩)- 对随机变量 X,E(X^k),k=1,2,... 若存在,则称它为 X 的 k 阶原点矩,简称 k 阶矩。若 E[(X-E(X))^k],k=1,2,... 存在,则称它为 X 的 k 阶中心矩。
DataFrame.describe([percentiles, include, ...])
:获取顺序统计量以及其他的统计结果。percentiles
:一个array-like
。每个元素都是0~1
之间。如 0.5代表 50%分位include,exclude
:指定包含/不包含哪些列(通过dtype
来指定)。可以为None/'all'
,或者一个dtype
列表
DataFrame.corr([method, min_periods])
:计算任意两个列之间的非NAN
的、按照索引对齐的值的相关系数。method
为相关系数的类型,可以为:'pearson'
:标准的相关系数'kendall'
:Kendall Tau
相关系数'spearman'
:Spearman rank
相关系数
而
min_periods
:一个整数。它指定为了生成一个有效的相关系数,每一对列数据的最短长度。DataFrame.corrwith(other[, axis, drop])
:计算两个DataFrame
的行-行、列-列的相关系数。axis
:如果为0/'index'
则沿着0轴,则计算列-列之间的相关系数。如果为1/'columns'
,则沿着1轴,计算行-行之间的相关系数drop
:一个布尔值。如果为True
,则如果某行/列都是NaN
,则抛弃该行/列。如果为False
,则返回全部。
DataFrame.cov([min_periods])
:计算任意两列之间的协方差。min_periods
指定为了生成一个有效的协方差,每一对列数据的最短长度。- 对于
Series
,其调用为:Series.cov(other,[min_periods])
- 对于
5. 对于Series
:唯一值、值计数、成员资格:
Series.unique()
:返回Series
中唯一值组成的一维ndarray
Series.value_counts(normalize=False, sort=True, ascending=False,
bins=None, dropna=True)
:对Series
中的数进行计数。如果normalize
为True
,则返回频率而不是频数。sort
为True
则结果根据出现的值排序,排序方式由ascending
指定。bins
是一个整数或者None
。如果它为整数,则使用半开半闭区间来统计,它给出了该区间的数量。
Series.isin(values)
:返回一个布尔数组,给出Series
中各值是否位于values
中。
DataFrame
也有此方法。
6. 对于多级索引,可以通过level
参数来指定在某个轴上的操作索引级别。如果level=None
,则不考虑索引的多级。
学员评价