Python数据分析之NumPy和Pandas

文章来源：企鹅号 - 飞鹰技术

Python的强大数据处理能力，是依靠其强大的模块库来支持的；以下就介绍一下常用的NumPy与Pandas库（详细说明参见https://www.scipy.org/docs.html）。

NumPy库

NumPy是一个高性能科学计算和数据分析基础包，同时也是其他数据分析模块（如SciPy与Pandas）的基础；其核心功能是高维数组ndarray：

数组对象本身具有大小固定、元素数据类型相同等特性；

提供了大量数值运算函数，以有效地进行向量、矩阵运算；

数组生成：

数组创建：np.array(ary_like, dtype=None, copy=True, order='K', subok=False, ndmin=0)

ary_like：为一个序列（元组、列表等），用于生成新的ndarray；

np.asarray(a, dtype=None, order=None)：以copy方式生成数组；

一维有序数组：np.arange([start,]stop, [step,]dtype=None)

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)：指定范围内指定个数的数据（尽量均匀）；

全零数组：np.zeros(shape, dtype=float, order='C')

全1数组：np.ones(shape, dtype=float, order='C')

未初始化数组：np.empty(shape, dtype=float, order='C')

zero_like/ones_like/empty_like(a, dtype=None, order='K', subok=True)：创建与a（ndarray）维数、类型相同的数组；

指定元素填充：np.full(shape, fill_value, dtype=None, order='C')

np.eye(N)/np.identity(N)：创建N*N的矩阵；

np.where(cond,ary1,ary2)：根据cond返回ary1或ary2中对应值；

np.in1d(ar1, ar2, assume_unique=False, invert=False)：判断ary1中每一个元素是否在ary2中（返回一个True、False数组）；

np.full(2, 5)

array([5, 5])

np.full((2,3), 8)

array([[8, 8, 8],

[8, 8, 8]])

重要属性：

ary.ndim：返回数组的维数；

ary.shape：以元组表示的各维度大小，如(2,3)；

ary.size：元素个数（shape中各值乘积）；

ary.dtype：元素类型；

ary.itemsize：元素所占字节大小（类型大小）；

修改维数：

ary.shape=(...)：重新赋值各维度；

ary.resize(dim1, ...dimNn)：与重赋值shape同；

ary.reshape(dim1, ...dimNn)：返回新数组，原数组不变；

ndarry函数：

ary.astype(dType)：转换元素类型，以新数组（copy）形式返回；

mean：求均值

sum：求和

cumsum：累加；

cumprod：累乘；

std：标准差；

var：方差(std*std)；

max/min：最大最小值；

argmax/argmin：最大值、最小值的索引；

any：至少一个元素为True则返回True；

all：所有元素为True则返回True；

dot(ary2)：计算矩阵内积；

ary=array([1, 2, 3, 4])

ary.cumprod() #array([ 1, 2, 6, 24], dtype=int32)

ary.cumsum() 3array([ 1, 3, 6, 10], dtype=int32)

矩阵函数：

np.diag(d)：以一维数组形式返回方阵的对角线元素；

np.diag([e1, ...en])：将一维数组作为对角线元素（其他元素为0），构造方阵；

np.dot(d1,d2)：点乘；

np.trace(d)：计算对角线元素和；

排序函数：

sort(a, axis=-1, kind='quicksort', order=None)：返回排序后副本；

unique(ar, return_index=False, return_inverse=False, return_counts=False, axis=None)：去重并排序；

return_index：返回一个指示每个元素在原序列中的位置序列；

return_inverse：返回一个构造原序列的序列（标识出原序列每个元素在返回序列中的位置）

return_counts：返回每个元素在原序列中重复数；

intersect1d(ar1, ar2, assume_unique=False, return_indices=False)：交集（去重排序）；

union1d(ar1, ar2)：并集（去重排序）；

setdiff1d(ar1, ar2, assume_unique=False)：差（1-2，去重排序）；

setxor1d(ar1, ar2, assume_unique=False)：对称差（去重排序）；

ary=[8,8,8,6,6,5,3,3,3,3]

np.unique(ary,True,True,True)

(array([3, 5, 6, 8]), #out

array([6, 5, 3, 0], dtype=int64), #out中元素在ary中位置

array([3, 3, 3, 2, 2, 1, 0, 0, 0, 0], dtype=int64), #ary中元素在out中位置

array([4, 1, 2, 3], dtype=int64)) #元素的count

文件读写：

save(file, arr, allow_pickle=True, fix_imports=True)：保存数组到文件.npy；savez(...)将多个数组保存到文件.npz；

savetxt(fname, ary, fmt='%.18e', delimiter=' ', newline='\n', header='', footer='', comments='# ', encoding=None)：保存数组到文本文件（若扩展名为.gz，则自动使用gzip压缩）；

load(file, mmap_mode=None, allow_pickle=True, fix_imports=True, encoding='ASCII')：读取npy或npz文件；

loadtxt(fname, dtype=, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding='bytes')：读取文本文件到数组；

linalg模块：包含线性代数的函数，可计算逆矩阵、求特征值、解线性方程及行列式：

m=np.mat('1 2 ; 3 4')

# matrix([[1, 2],

[3, 4]])

b=np.array([7,8])

# array([-6. , 6.5])

pandas

pandas 是基于NumPy的，为解决数据分析任务而创建的一种工具。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。

两种主要数据类型：series与dataframe

Series是一维数据结构，类似于列表和Numpy中的ndarray，不同之处在于：Series能存储不同类型的数据，每一个元素都有一个标签。Series实际上是由两个数组组成，因此有两大属性：

index：保存标签信息（从Numpy数组继承的Index对象）

values：保存值，是一维Numpy数组对象；

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。和其他类似的数据结构相比，DataFrame中面向行和面向列的操作基本上是平衡的。

既有行索引也有列索引，它可以被看做由Series组成的字典；

可通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。

基本函数

pd.isnull(ser)：判断是否为空（NaN）；

pd.notnull(ser)

Series相关

创建pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

data：可以是array-like, dict or scalar值；

index：array-like or index(1d)

如：pd.Series({'a':1, 'b':'c', 'c':1.2})

Series属性（融合了字典和ndarray的优点，可以运用ndarray或字典的几乎所有索引操作和函数：

values：获取数组（值）；

index：获取索引；

name：values的名称；

index.name：索引的名称；

提取元素：

sr.head(n=5)

sr.tail(n=5)

sr.take(indices, axis=0, convert=None, is_copy=True, **kwargs)

indices : array-like，An array of ints indicating which positions to take.

axis : , default 0，The axis on which to select elements. 0 means that we are selecting rows, 1 means that we are selecting columns.

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python数据分析之NumPy和Pandas

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐