首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

十分钟掌握Pandas基本操作(上)

导入pandas库,读取csv文件 import pandas as pd df=pd.read_csv('pokemon/Pokemon.csv') 查看DataFrame信息 df.info()...# 数据类型,内存消耗等信息 df.describe() # 统计特征,均值方差等 查看DataFrame几行以及后几行 pd.head(n=5) # 可以添加参数n,表示显示几行 pd.tail...['#'],axis=1,inplace=True) # 删除‘#’列数据,在原DataFrame上改变 df.drop([1,2,3],axis=0) # 删除索引为1、2、3的,不在原DataFrame...df.dropna(how='any') # 去除所有包含空值的 去重 df.drop_duplicates(['Type1'],keep='first') # 去除相同的Type1的数据,仅保留第一个...3的数据 df.iloc[3] # 访问第4数据,两代码结果相同 数据访问方式(区域索引,先行后列) df.iloc[:5,:2] # 数据5两列,按位置索引 df.loc[10:15

78612
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas_Study02

去除 NaN 值 在Pandas的各类数据Series和DataFrame里字段值为NaN的为缺失数据,不代表0而是说没有赋值数据,类似于python中的None值。...dropna() 删除NaN 值 可以通过 dropna 方法,默认按扫描(操作),会将每一有NaN 值的那一删除,同时默认是对原对象的副本操作,不会对原对象产生影响,也可以通过inplace 指示是否直接在原对象上操作...# 要删除一列或一中全部都是nan 值的那一或列,可以通过下面的方式 print("del cols is all NaN\n", df.dropna(axis = 'columns', how...,thresh 指示这一列或中有两个或以上的非NaN 值的或列被保留 通过布尔判断,也是可以实现删除 NaN 的功能。...df.fillna(0,inplace = True) # inplace 指明在原对象上直接修改 复杂的 使用向前 或 向后 填充数据,依旧使用fillna 方法,所谓向前 是指 取出现NaN值的一列或的数据来填充

18110

针对SAS用户:Python数据分析库pandas

DataFrame的.head()方法默认显示5。.tail()方法默认显示最后5计数值可以是任意整数值,如: ? SAS使用FIRSTOBS和OBS选项按照程序来确定输入观察数。...按切片也可以。方括号[]是切片操作符。这里解释细节。 ? ? 注意DataFrame的默认索引(从0增加到9)。这类似于SAS中的自动变量n。...thresh参数允许您指定要为或列保留的最小非空值。在这种情况下,"d"被删除,因为它只包含3个非空值。 ? ? 可以插入或替换缺失值,而不是删除和列。....下面我们对比使用‘向’填充方法创建的DataFrame df9,和使用‘后向’填充方法创建的DataFrame df10。 ? ?...在删除缺失之前,计算在事故DataFrame中丢失的记录部分,创建于上面的df。 ? DataFrame中的24个记录将被删除

12.1K20

Python数据分析——以我硕士毕业论文为例

删除缺失值 使用pd.DataFrame.dropna()方法完成缺失值的删除: In [17]: pd.DataFrame.dropna Out[17]: <function pandas.core.frame.DataFrame.dropna...; all:当一所有的数据都时缺失值时再删除这一。...重复值的删除 使用pd.DataFrame.drop_duplicates()方法完成缺失值的删除: In [18]: pd.DataFrame.drop_duplicates Out[18]: 通过参数keep的属性值来设置: first:所有重复删除保留第一; last:所有重复删除保留最后一。...重复代码的打包 每次进行数据分析我都会新建一个.ipynb文件,而数据分析都需要经过数据表合并、数据清洗等工作,那么最好的方式其实是将数据分析的准备工作进行一个打包,然后在.ipynb文件的第一引入包即可

3.1K20

pandas入门:Series、DataFrame、Index基本操作都有了!

导读:pandas是一款开放源码的BSD许可的Python库。它基于NumPy创建,为Python编程语言提供了高性能的、易于使用的数据结构和数据分析工具。...访问DataFrame首尾数据 head和tail方法用于访问DataFramen和后n行数据,默认返回5数据,如代码清单6-14所示。...代码清单6-14 访问DataFrame前后n行数据 print('默认返回5数据为:\n', df.head()) 输出: 默认返回5数据为: col1 col2 a...表示删除或列的标签。无默认值 axis:接收0或1。表示执行操作的轴向,其中0表示删除,1表示删除列。默认为0 levels:接收int或者索引名。表示索引级别。...8 e 14 9 # 删除 df.drop('a', axis = 0, inplace = True) print('删除a后的DataFrame为:\n', df) 输出: 删除

4.3K30

灰太狼的数据世界(三)

读出来的数据就是一个dataframe,可以直接对他进行操作。 如果想获取几行值可以直接使用head方法,或者切片,都是可以拿到的值的。...读取数据的方法提供如下几种: df.head(n):查看DataFrame对象的n df.tail(n):查看DataFrame对象的最后n df.shape():查看行数和列数 df.info(...下面我们简单介绍一下: 选择一列: data['column_name'] 选择一列的几行数据: data['columns_name'][:n] 选择多列: data[['column1','column2...删除不完整的(dropna) 假设我们想删除任何有缺失值的。这种操作具有侵略性,但是我们可以根据我们的需要进行扩展。 我们可以使用isnull来查看dataframe中是否有缺失值。...) 我们也可以增加一些限制,在一中有多少非空值的数据是可以保留下来的(在下面的例子中,行数据中至少要有 5 个非空值) df1.drop(thresh=5) 删除不完整的列(dropna) 我们可以上面的操作应用到列上

2.8K30

esproc vs python 4

A4:按照月份m进行排序 A5:新增一列,如果月份等于的月份,则计算增长比并赋值,否则赋值null,将该列命名为yoy。...A5:将amount按照倒序排序,8名 A6: A.isect(),序列A成员可以为序列,产生所有子序列都有的成员组成的新序列。这里是求所有成员的交集。...update_rec') print(update_rec) e = time.time() print(e-s) 首先merge(old,new,on=’left’)将旧表左连接新表,新表中包含nan的就是旧表删除...,由于字段名一样,所以python默认添加的后缀是_x,_y,删除的记录就是截取merge以后的四个字段。...另外python中的merge函数不支持差集计算(或许其他函数支持),造成在第四例中特别麻烦。python pandas的dataframe结构是按列进行存储的,按循环时就显得特别麻烦。

1.9K10

Python进阶之Pandas入门(三) 最重要的数据流操作

.head()默认输出DataFrame,但是我们也可以传递一个数字:例如,movies_df.head(10)将输出。 要查看最后五,请使用.tail()。....通常,当我们加载数据集时,我们喜欢查看左右的内容,以了解隐藏在其中的内容。在这里,我们可以看到每一列的名称、索引和每行中的值示例。...我们的movies DataFrame中有1000和11列。 在清理和转换数据时,您将需要经常使用.shape。例如,您可能会根据一些条件过滤一些,然后想要快速知道删除了多少。...方法也将返回数据DataFrame的一个副本,但这次删除了副本。...这意味着如果两是相同的,panda将删除第二保留第一。使用last有相反的效果:第一删除。 另一方面,keep将删除所有重复项。如果两是相同的,那么这两行都将被删除

2.6K20

Python中的DataFrame模块学

本文是基于Windows系统环境,学习和测试DataFrame模块:   Windows 10   PyCharm 2018.3.5 for Windows (exe)   python 3.6.8...n = np.array(df)   print(n)   DataFrame增加一列数据   import pandas as pd   import numpy as np   data = pd.DataFrame...删除重复的数据   import pandas as pd   norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first...=‘first'时,就是保留第一次出现的重复   # keep='last'时就是保留最后一次出现的重复。   ...'表示去除列   # how: 'any'表示或列只要含有NaN就去除,'all'表示或列全都含有NaN才去除   # thresh: 整数n,表示每行或列中至少有n个元素补位NaN,否则去除

2.4K10

数据导入与预处理-课程总结-01~03章

print(arr_2d[:2, 0:1]) # 使用切片访问、第一列的元素 2.4 数组运算 2.4.1 形状相同的数组运算 无论是形状相同的数组,还是形状不同的数组,它们之间都可以执行算术运算...:索引 Dataframe既有索引也有列索引,可以被看做由Series组成的字典(共用一个索引) 选择列 / 选择 / 切片 / 布尔判断 1.选择与列 # 选择与列 df = pd.DataFrame...['a','b','c','d']) # 新增列/赋值 df['e'] = 10 df.loc[4] = 20 # 索引后直接修改值 df['e'] = 20 df[['a','c']] =...100 # del语句 - 删除列 del df['a'] # drop()删除,inplace=False → 删除后生成新的数据,不改变原数据 df.drop([1,2]) # drop()...使用at和iat访问数据 pandas中还可以使用at和iat访问数据,与两种方式相比,这种方式可以访问DataFrame类对象的单个数据。

2.9K20

30 个小例子帮你快速掌握Pandas

选择特定的列 3.读取DataFrame的一部分行 read_csv函数允许按读取DataFrame的一部分。有两种选择。第一个是读取n。...我们还可以使用skiprows参数从文件末尾选择。Skiprows = 5000表示在读取csv文件时我们将跳过5000。...例如,thresh = 5表示一必须具有至少5个不可丢失的非丢失值。缺失值小于或等于4的行将被删除DataFrame现在没有任何缺失值。...16.带删除的重置索引 在某些情况下,我们需要重置索引并同时删除原始索引。考虑从DataFrame中抽取样本的情况。该示例将保留原始DataFrame的索引,因此我们要重置它。...df[['Geography','Exited','Balance']]\ .sample(n=6).reset_index() ? 重设索引,但原始索引保留为新列。

10.6K10

Pandas速查手册中文版

= pd.date_range('1900/1/30', periods=df.shape[0]):增加一个日期索引 查看、检查数据 df.head(n):查看DataFrame对象的n df.tail...(n):查看DataFrame对象的最后n df.shape():查看行数和列数 http:// df.info() :查看索引、数据类型和内存信息 df.describe():查看数值型列的汇总统计...():检查DataFrame对象中的空值,返回一个Boolean数组 pd.notnull():检查DataFrame对象中的非空值,返回一个Boolean数组 df.dropna():删除所有包含空值的...df.dropna(axis=1):删除所有包含空值的列 df.dropna(axis=1,thresh=n):删除所有小于n个非空值的 df.fillna(x):用x替换DataFrame对象中所有的空值...np.mean data.apply(np.max,axis=1):对DataFrame中的每一应用函数np.max 数据合并 df1.append(df2):将df2中的添加到df1的尾部 df.concat

12.1K92

数据导入与预处理-课程总结-04~06章

2.1.2 删除缺失值 pandas中提供了删除缺失值的方法dropna(),dropna()方法用于删除缺失值所在的一或一列数据,返回一个删除缺失值后的新对象。...how:表示删除缺失值的方式。 thresh:表示保留至少有N个非NaN值的或列。 subset:表示删除指定列的缺失值。 inplace:表示是否操作原数据。...na_df[na_df.isnull().T.any()] # 删除缺失值 -- 将缺失值出现的全部删掉 na_df.dropna() # 保留至少有3个非NaN值的 na_df.dropna(...keep:表示采用哪种方式保留重复项,该参数可以取值为’first’(默认值)、 'last '和 ‘False’,其中’first’代表删除重复项,仅保留第一次出现的数据项;'last '代表删除重复项...;'last '代表删除重复项,仅保留最后一次出现的数据项;'False’表示删除所有的重复项。

13K10
领券