首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据处理 tips

在本文中,我将分享一些Python函数,它们可以帮助我们进行数据清理,特别是在以下方面: 删除未使用列 删除重复项 数据映射 处理空数据 入门 我们将在这个项目中使用pandas,让我们安装包。...在本例,我希望显示所有的重复项,因此传递False作为参数。现在我们已经看到这个数据集中存在重复项,我想删除它们并保留第一个出现项。下面的函数用于保留第一个引用。...在df["Sex"].unique和df["Sex"].hist()帮助下,我们发现此列还存在其他值,m,M,f和F。...注意:请确保映射中包含默认值male和female,否则在执行映射后它将变为nan。 处理空数据 ? 此列缺少3个值:-、na和NaNpandas不承认-和na为空。...现在你已经学会了如何用pandas清理Python数据。我希望这篇文章对你有用。如果我有任何错误或打字错误,请给我留言。

4.3K30
您找到你想要的搜索结果了吗?
是的
没有找到

一篇文章就可以跟你聊完Pandas模块那些常用功能

在 NumPy 数据结构是围绕 ndarray 展开,那么在 Pandas 核心数据结构是什么呢?...去重复值: 数据采集可能存在重复行,这时只要使用 drop_duplicates() 就会自动把重复行去掉。...,有些字段存在空值 NaN 可能,这时就需要使用 Pandas isnull 函数进行查找。...2. inner 内连接 inner 内链接是 merge 合并默认情况,inner 内连接其实也就是交集,在这里 df1, df2 相同是 name,所以是基于 name 字段做连接:...如何用 SQL 方式打开 Pandas Pandas DataFrame 数据类型可以让我们像处理数据表一样进行操作,比如数据表增删改查,都可以用 Pandas 工具来完成。

5.1K30

数据科学篇| Pandas使用(二)

在 NumPy 数据结构是围绕 ndarray 展开,那么在 Pandas 核心数据结构是什么呢?...去重复值: 数据采集可能存在重复行,这时只要使用 drop_duplicates() 就会自动把重复行去掉。...,有些字段存在空值 NaN 可能,这时就需要使用 Pandas isnull 函数进行查找。...2. inner 内连接 inner 内链接是 merge 合并默认情况,inner 内连接其实也就是交集,在这里 df1, df2 相同是 name,所以是基于 name 字段做连接:...如何用 SQL 方式打开 Pandas Pandas DataFrame 数据类型可以让我们像处理数据表一样进行操作,比如数据表增删改查,都可以用 Pandas 工具来完成。

5.8K20

Day4.利用Pandas做数据处理

在NumPy数据结构是围绕ndarray展开, 那么在Pandas核心数据结构是Series和 DataFrame,分别代表着一维序列和二维表结构。...常见操作比如选取、替换行或列数据,还能重组数据表、修改索引、多重筛选等。 我们基本上可以把 DataFrame 理解成一组采用同样索引 Series 集合。...,索引从0开始,如果要按照表格一列,id列序号,从1开始,可以将其指定为行索引顺序 ''' # 拓展: reset_index()把索引变成某一列 可以自己尝试,就不演示了 添加数据 import...数据处理包含以下四个部分: 对Series过滤NaN 对DataFrame过滤NaN 填充缺失数据 移除重复数据 from numpy import nan as NaN # 通过pandasdropna...A B 0 1 a 3 2 b 5 3 c # 可以试试指定列B,观察不同 ''' # 保留重复最后一行 df11 = df print(df11.drop_duplicates(

6K10

python数据分析笔记——数据加载与整理

5、文本缺失值处理,缺失数据要么是没有(空字符串),要么是用某个标记值表示,默认情况下,pandas会用一组经常出现标记值进行识别,NA、NULL等。查找出结果以NAN显示。...2、索引上合并 (1)普通索引合并 Left_index表示将左侧行索引引用做其连接 right_index表示将右侧行索引引用做其连接 上面两个用于DataFrame连接键位于其索引...(2)对于pandas对象(Series和DataFrame),可以pandasconcat函数进行合并。...一对一替换:用np.nan替换-999 多对一替换:用np.nan替换-999和-1000. 多对多替换:用np.nan代替-999,0代替-1000. 也可以使用字典形式来进行替换。...清理数据集 主要是指清理重复值,DataFrame中经常会出现重复行,清理数据主要是针对这些重复行进行清理。 利用drop_duplicates方法,可以返回一个移除了重复DataFrame.

6K80

数据科学篇| Pandas使用(二)

在 NumPy 数据结构是围绕 ndarray 展开,那么在 Pandas 核心数据结构是什么呢?...去重复值: 数据采集可能存在重复行,这时只要使用 drop_duplicates() 就会自动把重复行去掉。...,有些字段存在空值 NaN 可能,这时就需要使用 Pandas isnull 函数进行查找。...2. inner 内连接 inner 内链接是 merge 合并默认情况,inner 内连接其实也就是交集,在这里 df1, df2 相同是 name,所以是基于 name 字段做连接: 1...如何用 SQL 方式打开 Pandas Pandas DataFrame 数据类型可以让我们像处理数据表一样进行操作,比如数据表增删改查,都可以用 Pandas 工具来完成。

4.4K30

何用Python将时间序列转换为监督学习问题

对于一个给定DataFrame,可以使用 shift() 函数前移(前面的缺失值用NaN补全)或后移(后面的缺失值用NaN补全)来采集定长切片保存至列。...在这种问题中,我们在一个时间序列不是仅有一组观测值而是有多组观测值(温度和大气压)。此时时间序列变量需要整体前移或者后移来创建多元输入序列和输出序列。我们稍后将讨论这个问题。...现在我们完成了需要函数,下面我们来探索如何使用它。 单步单变量预测 在时间序列预测标准做法是使用滞后观测值(t-1)作为输入变量来预测当前时间观测值(t)。 这被称为单步预测。...除此之外,具有NaN行已经从DataFrame自动删除。 我们可以指定任意长度输入序列(3)来重复这个例子。...总结 在本教程,我们探究了如何用Python将时间序列数据集重新组织来供监督学习使用。

24.7K2110

《利用Python进行数据分析·第2版》第5章 pandas入门5.1 pandas数据结构介绍5.2 基本功能5.3 汇总和计算描述统计5.4 总结

在本书后续部分,我将使用下面这样pandas引入约定: In [1]: import pandas as pd 因此,只要你在代码中看到pd.,就得想到这是pandas。..."所对应sdata值找不到,所以其结果就为NaN(即“非数字”(not a number),在pandas,它用于表示缺失或NA值)。...: 1.7, 2002: 3.6}} 如果嵌套字典传给DataFrame,pandas就会被解释为:外层字典作为列,内层则作为行索引: In [66]: frame3 = pd.DataFrame...Nevada NaN 2.4 2.9 Ohio 1.5 1.7 3.6 内层字典会被合并、排序以形成最终索引。...虽然许多pandas函数(reindex)都要求标签唯一,但这并不是强制性

5.9K70

数据清洗、合并、转化和重构

文章来源:Python数据分析 目录: DIKW模型与数据工程 科学计算工具Numpy 数据分析工具Pandas Pandas函数应用、层级索引、统计计算 Pandas分组与聚合 数据清洗、合并、...默认将重叠列列名作为“外”进行连接 示例代码: # 默认将重叠列列名作为“外”进行连接 print(pd.merge(df_obj1, df_obj2)) 运行结果: data1 key...外”,right_on,右侧数据“外” 示例代码: # left_on,right_on分别指定左侧数据和右侧数据“外” # 更改列名 df_obj1 = df_obj1.rename(columns...b 3 3 a 9 a 4 4 a 9 a 5 9 a 9 a 默认是“内连接”(inner),即结果是交集...“外连接”(outer),结果是并集 示例代码: # “外连接” print(pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2',

1.4K50

懂Excel轻松入门Python数据分析包pandas(30):

今天来看看怎么填补有意义空白单元格,并且对应 pandas 方法。...Enter 你为了展示 Excel 功力,全程使用快捷,一切尽在不知不觉解决问题: 内功心法:选区 -> F5 -> Alt+S -> Alt+K -> 回车 -> 引用上方一个单元格 -> Ctrl...幸好,你想起来昨晚看到这一篇文章刚好说到是如何用 pandas 解决 ---- pandas 填"坑" 对于 pandas 来说,Excel 这些空单元格,加载后全是 nan: 这么看来一点都不时尚了...要填补这些眼花缭乱 nan,只需要一个方法: 行2:表格.fillna() 填"坑"操作,但是怎么填是有讲究,参数 method 就是告诉他怎么填 method 参数有很多可选值:{'backfill...', 'bfill', 'pad', 'ffill', None} 用 ffill 相当于之前 Excel 操作,获取前面的值(相当于 Excel 操作,输入等号后,引用公式上方单元格地址) 但是

49920

小蛇学python(15)pandas之数据合并

在pythonpandas,合并数据共有三种思路。 其一,关系型数据库模式连接操作。 其二,沿轴将多个操作对象拼接在一起。 其三,对互有重复数据处理与合并。 我们分别来进行介绍。...image.png 这里,并没有指定要用哪个列进行连接,如果没有指定,就会默认将重叠列列名当作连接。这里连接结果是按照笛卡儿积逻辑实现。在这个例子中表现不太明显,我们再看下一个例子。...image.png 如果要根据多个进行合并,传入一个由列名组成列表即可。你可以这样理解,多个形成一系列元组,并将其充当单个连接。看下面这个例子。...image.png 有一种很常见情况,就是表格连接键位于索引。看下面这个例子如何解决。...image.png 需要注意是,只用join时,两个表格除了索引不得有重复列。 2. contact 默认情况下,concat是在axis=0上工作

1.6K20

决策树算法实现分类案例

导入数据数据预处理模型评估 导入数据 #导人pandas用于数据分析。 import pandas as pd #利用pandasreadcsv模块直接从互联网收集泰坦尼克号乘客数据。...NaN 11 male #使用pandas,数据都转人pandas独有的dataframe格式(二维数据表格),直接使用info() ,查看数据统计特性。...:该数据共有1313条乘客信息,并且有些特征数据是完整(pclass、name),有些则是缺失;有些是数值类型,有些则是字符串。...sex与pclass两个数据列值都是类别型,需要转化为数值特征,用0/1代。 #首先我们补充age里数据,使用平均数或者中位数都是对模型偏离造成最小影响策略。...y_test= train_test_split (x, y, test_size= 0.25,random_state = 33) #使用scikit- learn. feature_ extraction特征转换器

68720

python merge、concat合

’、‘left’、‘right’ on 用于连接列名,必须同时存在于左右两个DataFrame对象,如果位指定,则以left和right列名交集作为连接 left_on 左侧DataFarme中用作连接列...默认总是赋值 1、多对一合并(一个表连接列有重复值,另一个表连接没有重复值) import pandas as pd import numpy as np df1 = pd.DataFrame...(一个表连接列有重复值,另一个表连接重复值) df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1': range(7...left_index、right_index是指定表索引列为连接,两者可以组合,是为了区分是否是索引列 两个表索引列都是连接 left2 = pd.DataFrame(np.arange(6)...)纵向连接,ignore_index = False ,可能生成重复索引 2)横向连接时,对象索引不能重复 4)合并重叠数据 适用范围: 1)当两个对象索引有部分或全部重叠时 2)用参数对象数据为调用者对象缺失数据

1.7K10
领券