python及numpy,pandas易混淆的点

初接触python觉得及其友好(类似matlab),尤其是一些令人拍案叫绝不可思议的简单命令就可以完成非常复杂的计算,但是真正接触一下就发现,python比matlab有很多不一样的特性。

首先python的工具包(类似于C的库函数)非常多,很多功能都有重复,所以选好包很重要,最简单的选择方法就是用时下最流行的包,社区比较活跃,遇到问题网上一搜很多答案,而且更新和维护也比较好。

在数值计算中常用的包就是numpy,pandas,scipy以及绘图用的matplotlib。

Numpy

numpy的优势是矩阵运算,最大的特点是引入了ndarray-多维数组的概念。在ndarray中,每个[]就代表1维。这里和matlab或者C++或者fortran都很不一样,没有行优先或者列优先的概念。但是numpy还有一个数据结构是mat。

个人觉得是为了便于使用以上语言的人们使用的。例如mat结构可以非常方便地做转置(matName.T),求逆(matName.I),求伴随矩阵(matName.A)

pandas

pandas的Series数据结构对象:类似于numpy的ndarray。

pd.Series(data),data可以是numpy的array或者python的列表都可以.

obj=pd.Series([4,7,-5,3])

obj.index 返回obj的索引

obj.values 返回obj的数据

如果在初始化的时候没有指定索引,默认索引是从0开始到N-1的整数,也可以在初始化的时候就指定索引.

obj2=pd.Series([1,2,3],index=['a','b','c']) 这里index=后面是['a','b','c'],也可以是别的列表对象.

Series对象的index还可以单独赋值,例如obj2的index还可以这样赋值:

obj2.index2=[....]

obj2['a']利用索引访问数据。

字典结构是python的数据结构,pandas中的类似数据结构成为数据框架(DataFrame)。

可以把python字典类型的数据直接给Series对象,pandas会自动将key转换为index,data还是data。

sdata={'a':1, 'b':2}

obj3=Series(sdata)

判断是否是空pd.isnull(Series对象) 或者是 pd.notnull(Series对象)

Series对象也有判断数据是否是空的函数.isnull()。

Series对象也可以有一些基本的算数运算,例如obj+obj2. 在具体执行时,对先比对index,对相同index的数据相加,如果obj有某个index而obj1没有,则数据为NaN。

DataFrame的初始化

对于python的字典结构数据对象,可以直接创建pandas的DataFrame对象,例如:

data={'name':['Sara', 'Ben'],

'Age':[23,34]}

frame=pd.DataFrame(data)

得到一个column分别为name和age,index是0,1的DataFrame。DataFrame就是按照column和index组织起来的数据集合,类似于excel表格,也类似于基本的database结构。

column1   column2   column3
index1        data11      data12       data13
index2       data21      data22      data23
index3       data31      data32      data33
frame1=pd.DataFrame(data,column=[],index=[])

frame1.column 返回column列表,是index类型。

要访问frame1中的某一列数据,可以用frame1['column_name']或者frame1.column_name,这两种方式都可以。

行元素的获取,可以用:frame.ix[index_name]

每列的数据都可以单独赋值: frame.column_name=[....]

容易混淆/出错的地方

生成0-N数列的函数:在python中是range(N+1),但是在numpy中是arange(N+1)。

数组切片:

numpy的零矩阵 np.zeros((3,3)) 3维零矩阵,对于矩阵,形参必须是带括号()的,即tuple类型。

改变多维数组维数 np.reshape((dim1,dim2)) 必须是()的tuple类型。

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-12-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据结构与算法

P1774 最接近神的人_NOI导刊2010提高(02)

题目描述 破解了符文之语,小FF开启了通往地下的道路。当他走到最底层时,发现正前方有一扇巨石门,门上雕刻着一幅古代人进行某种活动的图案。而石门上方用古代文写着“...

2556
来自专栏数据之美

浮点数加法引发的问题:浮点数的二进制表示

1、问题: 之前有同学问过这样一个问题: echo|awk '{print 3.99 -1.19 -2.80}' 4.44089e-16 类似的问题还...

1879
来自专栏落影的专栏

程序员进阶之算法练习(二十)

前言 这四个题属于中等,有的需要一定的代码量,有的需要奇妙的思考。 正文 1. Sonya and Queries 题目链接 ** 题目大意:** 给出一...

3164
来自专栏智能算法

前端面试中的常见的算法问题

作者:Jack Pu 链接:www.jackpu.com/qian-duan-mian-shi-zhong-de-chang-jian-de-suan-fa-w...

4268
来自专栏机器学习实践二三事

单链表判断是否有环和环起始节点

面试的滴滴研究院暑期实习生,岗位机器学习,二面除了电话面还要视频面试写代码,两个问题: 单链表判断是否有环以及找出环开始的节点 建立二叉排序树并进行中序遍历 因...

1758
来自专栏WD学习记录

牛客网 地牢逃脱

给定一个 n 行 m 列的地牢,其中 '.' 表示可以通行的位置,'X' 表示不可通行的障碍,牛牛从 (x0 , y0 ) 位置出发,遍历这个地牢,和一般的游戏...

743
来自专栏编程

C语言/C加加新手入门学习经验资料分享,基础知识大汇总!

C语言是面向过程的,而C++是面向对象的 相信这么努力的你 已经置顶了我 学习C语言始终要记住“曙光在前头”和“千金难买回头看”,“千金难买回头看”是学习知识的...

1799
来自专栏游戏开发那些事

【转】STL之二分查找 (Binary search in STL)

Section I 正确区分不同的查找算法count,find,binary_search,lower_bound,upper_bound,equal_rang...

601
来自专栏Jacklin攻城狮

简谈常用算法

572
来自专栏calmound

zoj 1315 Excuses, Excuses!

题意:简单题,读懂题目就很好写了,这里要说的是,题目并没有叙述每句话里的单词长度是多少,所以导致我的数组开小了,一直SF,后来把数组开大后就A了        ...

3335

扫描关注云+社区