15分钟
统计量
4. 均值和方差:
numpy.sum(a, axis=None, dtype=None, out=None, keepdims=False):计算a在指定轴上的和numpy.prod(a, axis=None, dtype=None, out=None, keepdims=False):计算a在指定轴上的乘积numpy.median(a[, axis, out, overwrite_input, keepdims]):计算a在指定轴上的中位数(如果有两个,则取这两个的平均值)numpy.average(a[, axis, weights, returned]):计算a在指定轴上的加权平均数numpy.mean(a[, axis, dtype, out, keepdims]):计算a在指定轴上的算术均值numpy.std(a[, axis, dtype, out, ddof, keepdims]):计算a在指定轴上的标准差numpy.var(a[, axis, dtype, out, ddof, keepdims]):计算a在指定轴上的方差。方差有两种定义:- 偏样本方差
biased sample variance。计算公式为 ( 为均值): - 无偏样本方差
unbiased sample variance。计算公式为 ( 为均值): 当ddof=0时,计算偏样本方差;当ddof=1时,计算无偏样本方差。默认值为 0。当ddof为其他整数时,分母就是N-ddof。
- 偏样本方差
numpy.nanmedian(a[, axis, out, overwrite_input, ...]):计算a在指定轴上的中位数,忽略NaNnumpy.nanmean(a[, axis, dtype, out, keepdims]):计算a在指定轴上的算术均值,忽略NaNnumpy.nanstd(a[, axis, dtype, out, ddof, keepdims]):计算a在指定轴上的标准差,忽略NaNnumpy.nanvar(a[, axis, dtype, out, ddof, keepdims]):计算a在指定轴上的方差,忽略NaN
5. 相关系数:
numpy.corrcoef(x[, y, rowvar, bias, ddof]): 返回皮尔逊积差相关numpy.correlate(a, v[, mode]):返回两个一维数组的互相关系数numpy.cov(m[, y, rowvar, bias, ddof, fweights, ...]):返回协方差矩阵
6. 直方图:
numpy.unique(ar, return_index=False, return_inverse=False, return_counts=False):返回ar中所有不同的值组成的一维数组。如果ar不是一维的,则展平为一维。return_index:如果为True,则同时返回这些独一无二的数值在原始数组中的下标return_inverse:如果为True,则返回元素数组的值在新返回数组中的下标(从而可以重建元素数组)return_counts:如果为True,则返回每个独一无二的值在原始数组中出现的次数
numpy.histogram(a, bins=10, range=None, normed=False, weights=None, density=None):计算一组数据的直方图。如果a不是一维的,则展平为一维。bins指定了统计的区间个数(即统计范围的等分数)。range是个长度为2的元组,表示统计范围的最小值和最大值(默认时,表示范围为数据的最小值和最大值)。当density为False时,返回a中数据在每个区间的个数;否则返回a中数据在每个区间的频率。weights设置了a中每个元素的权重,如果设置了该参数,则计数时考虑权重。它返回的是一个元组,第一个元素给出了每个直方图的计数值,第二个元素给出了直方图的统计区间的从左到右的各个闭合点 (比计数值的数量多一个)。normed:作用与density相同。该参数将被废弃bins也可以为下列字符串,此时统计区间的个数将通过计算自动得出。可选的字符串有:'auto'、'fd'、'doane'、'scott'、'rice'、'sturges'、'sqrt'
numpy.histogram2d(x, y, bins=10, range=None, normed=False, weights=None):计算两组数据的二维直方图numpy.histogramdd(sample, bins=10, range=None, normed=False, weights=None):计算多维数据的直方图numpy.bincount(x[, weights, minlength]):计算每个数出现的次数。它要求数组中所有元素都是非负的。其返回数组中第i个元素表示:整数i在x中出现的次数。要求x必须一维数组,否则报错。weights设置了x中每个元素的权重,如果设置了该参数,则计数时考虑权重。minlength指定结果的一维数组最少多长(如果未指定,则由x中最大的数决定)。numpy.digitize(x, bins, right=False):离散化。如果x不是一维的,则展平为一维。它返回一个数组,该数组中元素值给出了x中的每个元素将对应于统计区间的哪个区间。区间由bins这个一维数组指定,它依次给出了统计区间的从左到右的各个闭合点。right为True,则表示统计区间为左开右闭合(];为False,则表示统计区间为左闭合右开[)
注意:matplotlib.pyplot也有一个建立直方图的函数(hist(...)),区别在于matplotlib.pyplot.hist(...)函数会自动绘直方图,而numpy.histogram仅仅产生数据
学员评价