Python-NumPy基础

前言

这两天读完《利用Python进行数据分析》 这本书的第4章:NumPy 基础:数组和矢量计算 后,在进行下一步阅读高级应用前,先整理本章内容,做个笔记备查,也好加深印象。在往下看前请确保你已经安装了NumPy 库,并且已经使用 import numpy as np 加载numpy库。如果 还没有安装,那么可以在cmd(windows下)中使用 pip install numpy 命令安装,ubuntu下也可以使用 sudo apt-get install python-numpy 命令安装。

题外话:python的数据格式让我这种熟练了matlab的用户感觉好不习惯。>_<|||

创建数组,数组索引以及类型转换

  1. 使用np.array来创建数组(ndarray),每个数组都有shape属性和dtype属性,shape表示数组维数,dtype 表示数组元素类型。
  1. 使用astype 方法转换数组的dtype这个方法不会对原数组进行改动,会创建一个新的数组,也就是说原数组还是原来的dtype
  1. 使用np.zeros(), np.ones(), np.eye(), np.empty() 创建特殊数组,这一点和matlab还是差不多的,不过需要注意的是,如果你要创建一个2*3的全零数组,那么就应该这么写:np.zeros((2, 3)) ,也就是说传入的是一个元祖,如果你熟悉matlab你可能就会直接写np.zeros(2, 3),这在python中是不正确的。此外,在用np.empty()创建空数组时,实际上返回的并不是空数组,而是一些未初始化的垃圾值。np.arange() 是一个很有用的函数,返回给定范围内的连续值,注意下标从0开始,不包括末尾值
  1. 下面是一些常用的数组创建函数
  1. 数组索引和matlab相同点还是很多的,只是这里面可以用负数来表示从后往前数以及不包括冒号后面的索引(左闭右开区间)等等。有一点很需要注意,数组切片是原始数组的视图,这就是说数据不会被复制到新的数组切片上,对数组切片的任何修改都会直接反应到原数组上,或者说数组切片只是一个对原数组内容的引用, 如下图。

如果不想要这样的效果,想要一个独立的新数组,那么需要使用显示复制函数,例如arr_independent = arr[5:8].copy()。 对于多维数组的索引,需要注意的是有一个“轴”的问题(matlab用户肯定很奇怪),其实就是行和列,下面有个图说明。

再用个例子来说明下高维数组的索引方式。

除此之外还有一个布尔型索引,这个和matlab是一样的。

数组转置和轴对称

  1. 对于二维数组,可以使用T方法进行转置。
  1. 对于高维数组,需要用到 数组的transpose函数,参数是一个由轴编号组成的元祖,下面引用一段官网对其参数的解释,

如果传入的是一个元组,那么假设用i表示第j(从0开始)个位置的数值,那么转置之后的数组的第j个轴就是原数组的第i个轴(不得不吐槽这什么玩意儿,太别扭了),下面用一个例子来说明,

这里原始数组是一个2×2×4的三维数组,transpose的参数是元组(1, 0, 2),对应的下标索引为(0, 1, 2),对比可以知道,arr.transpose(1, 0, 2) 的意思就是将原数组 arr 的(0, 1)位置和(1, 0)位置互换,以此类推。

简洁的where函数

numpy.where 函数是三元表达式 x if condition else y 的矢量化版本。

其实和 Java 中的问号表达式也是异曲同工。这种用法很多时候真的很方便(废话),比如图像处理中我想把像素矩阵中大于110的全都置为1,小于110的都置为0,那么就可以这么写np.where(matrix > 110, 1, 0)。 同样用随机数举一个例子,

====== 2016-06-27更新 ====== numpy.where 函数在求一个数组最大值/最小值所在位置的时候也很有用,例如:

其中另一种方法求最大值所在位置使用了numpy.argmax 函数,该函数可直接返回最大值位置(啰嗦了~~)。

数学和统计函数

主要就是计算均值、方差、求和、最大值、最小值、累计和和累计积等。 需要注意的:假设有一个 5×4 的二维数组 arr ,那么np.mean(arr) 表示对整个二维数组的平均,即全部加起来除以个数,并不是matlab中的默认对列求平均。如果想要得到对某个轴向求平均,可以加上axis参数,如np.mean(arr, 1) 就是对行求平均。其他函数类似。

基本数组统计方法

===== 2016-06-29更新 ===== 注意,numpy.std() 求标准差的时候默认是除以 n 的,即是有偏的,而pandas.std() 默认是除以n-1 的,即是无偏的,如果想和numpy.std() 一样有偏,需要加上参数ddof=0 ,即pandas.std(ddof=0)

线性代数

  • 矩阵乘法:使用dot函数而不是 *,使用 * 得到的结果等于是matlab中使用点乘.* 的结果,使用dot函数才是真正的矩阵乘法。
  • 矩阵求逆、矩阵分解、行列式:函数名同matlab,使用前要先导入:from numpy.linalg import inv, qr 等等,以此类推。
  • 一些常用的线代函数

随机数的生成

这里着重说一下randnnormal。 书上在使用randn 的时候都是直接使用,但是我自己输入的时候却必须要这样np.random.randn。 此外,randn 默认只能生成标准正太分布的随机数,想要使用randn来生成非标态分布的随机数,那么可以这么写:sigma * np.random.randn(size) + mu 。但是使用normal就可以轻松的生成各种正态分布的随机数:normal(loc=0.0, scale=1.0,size=None),loc是均值,scale是标准差randint 是从给定的范围内随机选取整数,注意是闭区间

部分numpy.random函数

最后,MATLAB和NumPy

NumPy很多地方都是借鉴matlab的,所以说有很多相似之处,也有一些不同之处,可以参考下面的对照表,表格来自Numpy for Matlab users

真的最后 the real END

关于数组的集合运算以及我的一些测试(太懒就不写了,直接拍我记在书上的。。),就是setdiff1d(x, y)setxor1d(x, y) 的一些细微差别,后者对于x和y的顺序貌似不感冒,如有错,欢迎指正!

断断续续写了快一天,我真是服了,whatever,its done!

See you~

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏京东技术

【解题报告】看雪·京东2018CTF—京东AI CTF大挑战特别题

近日,京东安全联合安全界的黄埔军校看雪论坛举办了一次线上CTF大赛,近3w人参赛。参与解答“京东AI CTF大挑战特别题”的同学有1435人,最终解出题目的只有...

682
来自专栏CDA数据分析师

教你一招:Python编写的最短路径算法

一心想学习算法,很少去真正静下心来去研究,前几天趁着周末去了解了最短路径的资料,用python写了一个最短路径算法。算法是基于带权无向图去寻找两个点之间的最短路...

19310
来自专栏奇点大数据

Pytorch神器(4)

上一次,我们用最简短的篇幅讲述了用Pytorch实现线性回归的过程。整个程序仅仅用了约60多行就完成了一个线性回归机器学习程序的全部内容。这次的文章,我们来对上...

713
来自专栏数据结构与算法

洛谷P1731 [NOI1999]生日蛋糕(爆搜)

设从下往上数第i(1<=i<=M)层蛋糕是半径为Ri, 高度为Hi的圆柱。当i<M时,要求 R_i>R_{i+1}Ri​>Ri+1​ 且 H_i>H_{i+1}...

691
来自专栏UAI人工智能

实战派 | PaddlePaddle 你其实也可以真正地上手

1574
来自专栏mathor

概率论与数理统计(二)

993
来自专栏潇涧技术专栏

Python Algorithms - C8 Dynamic Programming

Python算法设计篇(8) Chapter 8 Tangled Dependencies and Memoization

763
来自专栏PPV课数据科学社区

【学习】笨办法学R编程(二)

经历了前面两个小挑战,你应该对R有点理解了。我们继续推进,今天的问题有点点复杂,复杂的不是R,而是一个数学概念:质数和质因子。任何一个合数都可以...

2749
来自专栏深度学习自然语言处理

一分钟搞懂的算法之BPE算法

昨天总结实验数据分析的时候发现一个机器翻译的其中的一个脚本,其中用到的算法就是BPE算法,刚开始感觉很高大上的,因为总是听到带上算法帽子的东西就觉得666。等自...

6428
来自专栏人工智能LeadAI

用TensorFlow的Linear/DNNRegrressor预测数据

今天要处理的问题对于一个只学了线性回归的机器学习初学者来说还是比较棘手——通过已知的几组数据预测一组数据。用excel看了下,关系不是很明显,平方,log都不是...

811

扫码关注云+社区