几乎所有使用Python处理分析数据的人都用过Pandas,因为实在太方便了,就像Excel一样,但你知道Pandas是基于Numpy开发出来的吗?
Pandas和Numpy的关系类似于国产安卓系统和原生安卓,Numpy提供底层数据结构和算法,搭配数据面板的分析模式,缔造了Pandas。
某种意义上来说,Numpy是Python数据科学领域金字塔尖的库。
有人这样问过。
这并不让人意外,虽然Numpy没有Pandas知名度高,但Numpy的性能之强大、应用之广会让很多人咋舌,甚至Numpy的论文登上了Nature杂志。
❝阅读和下载地址:https://www.nature.com/articles/s41586-020-2649-2 ❞
不清楚底细的人可能会问,到底什么是Numpy?
Numpy是专门用于多维数组和矩阵计算的Python库,Numpy的强大不在于有多少函数方法,而在于其多维数组和矩阵的计算能力和运行效率。
众所周知的商业软件matlab,也是基于多维数组和矩阵计算。
多维数组和矩阵计算最主要的特点是快,非常快。
知道线性代数吧,为了提高性能,有专门的线性代数库(如BLAS、LAPACK、Intel MKL等)对底层的矩阵运算进行了高度优化。
另外,CPU、GPU这些硬件对矩阵运算有很好的支持。
比如说,GPU具有大量的并行处理核心,非常适合执行大规模的矩阵运算。通过使用CUDA或OpenCL等技术,可以充分发挥GPU的并行计算能力。
在Numpy创建和使用多维数组很简单,使用array方法即可。
除了多维数组和矩阵计算,从Numpy本身来说,它以下4大特点确保了它的重要地位:
1、可以和Pandas等多种库进行交互
2、拥有各种科学计算API,任你调用
3、Numpy基于C语言开发,速度和C一样快
4、Numpy在Python中使用,操作和Python一样简洁
接下来,我们看看有哪些Python库的底层依赖库是numpy。
依赖代表这些库需要numpy支持才能运行,某种意义上来说,某个库作为依赖库越多代表它越重要。
以numpy作为依赖的部分python库:
可以看到,很多主流的数据科学、机器学习、深度学习库都是靠numpy依赖,基于多维数组来进行计算,可见numpy有多么的重要,说它是数据科学的顶级库也不为过。
以下是一些numpy的基础函数和方法介绍:
np.array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)
:np.zeros(shape, dtype=float, order='C')
:np.ones(shape, dtype=None, order='C')
:np.empty(shape, dtype=float, order='C')
:np.arange(start, stop=None, step=1, dtype=None)
:range
类似的数组,包含从 start
开始到 stop
结束(不包括 stop
)的值,步长为 step
。np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None, axis=0)
:num
个从 start
到 stop
的等间隔的点。np.reshape(a, newshape, order='C')
:a
重塑为 newshape
指定的形状。np.transpose(a, axes=None)
:axes
指定的轴顺序。np.dot(a, b, out=None)
:np.vstack(tup)
:np.concatenate(tup, axis=0)
。