课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
14分钟

统计2

4. 统计类方法:(下面的DataFrame方法对于Series也适用)

  • DataFrame.mean([axis, skipna, level, ...]):沿着指定轴,计算平均值
  • DataFrame.median([axis, skipna, level, ...]):沿着指定轴,计算位于中间大小的数
  • DataFrame.var([axis, skipna, level, ddof, ...]):沿着指定轴,计算样本的方差
  • DataFrame.std([axis, skipna, level, ddof, ...]):沿着指定轴,计算样本的标准差
  • DataFrame.mad([axis, skipna, level]):沿着指定轴,根据平均值计算平均绝对离差
  • DataFrame.diff([periods, axis]):沿着指定轴的一阶差分。periods为间隔。
  • DataFrame.skew([axis, skipna, level, ...]):沿着指定轴计算样本的偏度(二阶矩)
  • DataFrame.kurt([axis, skipna, level, ...]):沿着指定轴,计算样本的峰度(四阶矩)
    • 对随机变量 XE(X^k),k=1,2,... 若存在,则称它为 Xk 阶原点矩,简称 k 阶矩。若 E[(X-E(X))^k],k=1,2,... 存在,则称它为 Xk 阶中心矩。
  • DataFrame.describe([percentiles, include, ...]):获取顺序统计量以及其他的统计结果。
    • percentiles:一个array-like。每个元素都是 0~1之间。如 0.5代表 50%分位
    • include,exclude:指定包含/不包含哪些列(通过dtype来指定)。可以为None/'all',或者一个dtype列表
  • DataFrame.corr([method, min_periods]):计算任意两个列之间的非NAN的、按照索引对齐的值的相关系数。method为相关系数的类型,可以为:
    • 'pearson':标准的相关系数
    • 'kendall'Kendall Tau相关系数
    • 'spearman'Spearman rank相关系数

    min_periods:一个整数。它指定为了生成一个有效的相关系数,每一对列数据的最短长度。

  • DataFrame.corrwith(other[, axis, drop]) :计算两个DataFrame的行-行、列-列的相关系数。
    • axis:如果为0/'index'则沿着0轴,则计算列-列之间的相关系数。如果为1/'columns',则沿着1轴,计算行-行之间的相关系数
    • drop:一个布尔值。如果为True,则如果某行/列都是NaN,则抛弃该行/列。如果为False,则返回全部。
  • DataFrame.cov([min_periods]):计算任意两列之间的协方差。min_periods指定为了生成一个有效的协方差,每一对列数据的最短长度。
    • 对于Series,其调用为:Series.cov(other,[min_periods])

5. 对于Series:唯一值、值计数、成员资格:

  • Series.unique():返回Series中唯一值组成的一维ndarray
  • Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True):对Series中的数进行计数。如果normalizeTrue,则返回频率而不是频数。sortTrue则结果根据出现的值排序,排序方式由ascending指定。
    • bins是一个整数或者None。如果它为整数,则使用半开半闭区间来统计,它给出了该区间的数量。
  • Series.isin(values):返回一个布尔数组,给出Series中各值是否位于values中。

DataFrame也有此方法。

6. 对于多级索引,可以通过level参数来指定在某个轴上的操作索引级别。如果level=None,则不考虑索引的多级。