首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据分析——数据预处理

Python提供了丰富库和工具来处理这些问题,如pandas库可以帮助我们方便地处理数据框(DataFrame缺失重复。对于异常值,我们可以通过统计分析、可视化等方法来识别和处理。...dropna()方法用于删除含有缺失。 【例】当某行或某都为NaN时,才删除整行或整列。这种情况该如何处理? 关键技术: dropna()方法how参数。...利用duplicated()方法检测冗余,默认是判断全部是否全部重复,并返回布尔类型结果。对于完全没有重复,返回为False。...关键技术:该案例,使用DataFramedrop()方法,删除数据某一。 drop()方法参数说明如下: labels:表示标签或标签。...按删除数据 【例】对于上例DataFrame数据,请利用Python删除下面DataFrame实例第四数据。

60010
您找到你想要的搜索结果了吗?
是的
没有找到

Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

dropna()和fillna()方法1.1.2.1 dropna()删除含有空或缺失1.1.2.2 fillna()方法可以实现填充空或者缺失    1.2 重复处理1.2.1...1.1.2.1 dropna()删除含有空或缺失  ​ axis:确定过滤  ​ how:确定过滤标准,默认是‘any’  ​ inplase::False=不修改对象本身  1.1.2.2...,所以该方法返回一个由布尔组成Series对象,它索引保持不变,数据则变为标记布尔  强调注意:  ​ (1)只有数据表两个条目间所有内容都相等时,duplicated()方法才会判断为重复...数据重塑  3.1 重塑层次化索引  ​ Pandas重塑层次化索引操作主要是 stack()方法和 unstack()方法,前者是将数据“旋转”为,后者是将数据“旋转”为。 ...3.2 轴向旋转  ​ 在 Pandaspivot()方法提供了这样功能,它会根据给定索引重新组织一个 DataFrame对象。

5.2K00

Python 数据分析(三):初识 Pandas

print(s1.iteritems) # 取指定 print(s2[0]) print(s2['6']) # 连续取值 print(s2[1:3]) print(s2['7':'8']) # 取不连续取值...[1, :]) # 连续多行和间隔 print(df.loc[0:2, ['name', 'gender']]) # 间隔多行和间隔 print(df.loc[[0, 2], ['name'..., 'gender']]) # 取一 print(df.iloc[1]) # 取连续多行 print(df.iloc[0:3]) # 取间断多行 print(df.iloc[[1, 3]]) # 取某一...print(df.iloc[:, 0]) # 取某一个 print(df.iloc[0, 1]) 3.3 添加删除 我们通过示例来看一下如何DataFrame 添加数据以及如何其中删除数据。...=True) print(pd7) ''' 删除 参数1:要删除标签 参数2:0 表示,1 表示 参数3:是否在当前 df 执行该操作 ''' df5.drop(['c'], axis=1, inplace

1.6K20

数据专家最常使用 10 大类 Pandas 函数 ⛵

info:数据集总体摘要:包括数据类型和内存使用情况等信息。describe:提供数据集描述性摘要(比如连续统计信息、类别型字段频次信息等)。...图片 5.处理重复我们手上数据集很可能存在重复记录,某些数据意外两次输入到数据源,清洗数据时删除重复项很重要。...以下函数很常用:duplicated: 识别DataFrame是否有重复,可以指定使用哪些来标识重复项。drop_duplicates: DataFrame 删除重复项。...一般建议大家先使用 duplicated检查重复项,确定业务上需要删除重复项,再使用这个函数。图片 6.处理缺失现实数据集中基本都会存在缺失情况,下面这些函数常被用作检查和处理缺失。...isnull:检查您 DataFrame 是否缺失。dropna: 对数据做删除处理。注意它有很重要参数how(如何确定观察是否被丢弃)和 thred(int类型,保留缺失数量)。

3.5K21

Pandas图鉴(二):Series 和 Index

对于非数字标签来说,这有点显而易见:为什么(以及如何Pandas删除后,会重新标记所有后续?对于数字标签,答案就有点复杂了。...你逐一进行了几次查询,每次都缩小了搜索范围,但只看了一个子集,因为同时看到所有的一百个字段是不现实。现在你已经找到了目标,想看到原始表关于它们所有信息。一个数字索引可以帮助你立即得到它。...原理上讲,如下图所示: 一般来说,需要保持索引唯一性。例如,在索引存在重复时,查询速度提升并不会提升。...Pandas没有像关系型数据库那样 "唯一约束"(该功能[4]仍在试验),但它有一些函数来检查索引是否唯一,并以各种方式删除重复。 有时,但一索引不足以唯一地识别某行。...在Pandas,它被称为MultiIndex(第4部分),索引内每一都被称为level。 索引另一个重要特性是它是不可改变。与DataFrame普通相比,你不能就地修改它。

23320

数据分析与数据挖掘 - 07数据处理

它不仅仅包含各种数据处理方法,也包含了多种数据源读取数据方法,比如Excel、CSV等,这些我们后边会讲到,让我们首先从Pandas数据类型开始学起。...如果我们想根据同时进行数据访问,我们可以使用loc方法来完成这个操作,代码如下: # 仅对行数据进行筛选 print(df['20201012':'20201015']) # 访问其中一个...(type(data)) 以上结果需要你注意是返回类型,全部都是DataFrame,也就是说后边我们使用到DataFrame方法都适合来处理这些文件读取出来数据。...现在我们来思考几个问题: 如何更改手机号字段数据类型 如何根据出生日期和开始工作日期两个字段更新年龄和工龄两个字段 如何将手机号中间四位隐藏起来 如何根据邮箱信息取出邮箱域名字段 如何基于other...Excel不是对应,根据返回结果我们可以看出,第9重复,这里重复数据指的是每一个字段都重复数据。

2.6K20

Pandas图鉴(三):DataFrames

创建一个DataFrame 用已经存储在内存数据构建一个DataFrame竟是如此超凡脱俗,以至于它可以转换你输入任何类型数据: 第一种情况,没有标签,Pandas连续整数来标注。...垂直stacking 这可能是将两个或多个DataFrame合并为一个最简单方法:你第一个DataFrame中提取,并将第二个DataFrame附加到底部。...同时保持了左边DataFrame索引顺序不变。...注意:要小心,如果第二个表有重复索引,你会在结果中出现重复索引,即使左表索引是唯一 有时,连接DataFrame有相同名称。...然而,另一个快速、通用解决方案,甚至适用于重复名,就是使用索引而不是删除

36220

Pandas数据处理1、DataFrame删除NaN空(dropna各种属性控制超全)

Pandas数据处理——渐进式学习 ---- 目录 Pandas数据处理——渐进式学习 前言 环境 DataFrame删除NaN空 dropna函数参数 测试数据 删除所有有空 axis属性...版本:1.4.4 ---- DataFrame删除NaN空 在数据操作时候我们经常会见到NaN空情况,很耽误我们数据清理,那我们使用dropna函数删除DataFrame。...df = df.dropna(thresh=2) print(df) 有2个nan就会删除 subset属性 我这里清除是[name,age]两只要有NaN就会删除 import pandas...定义了填充空方法,                 pad / ffill表示用前面/,填充当前行/,                 backfill / bfill表示用后面...0或'index',表示按删除;1或'columns',表示按删除。 inplace:是否原地替换。布尔,默认为False。

3.8K20

最全面的Pandas教程!没有之一!

现有的创建新: ? DataFrame删除/ 想要删除某一或一,可以用 .drop() 函数。...当你使用 .dropna() 方法时,就是告诉 Pandas 删除掉存在一个或多个空(或者)。删除是 .dropna(axis=0) ,删除是 .dropna(axis=1) 。...请注意,如果你没有指定 axis 参数,默认是删除删除: ? 类似的,如果你使用 .fillna() 方法,Pandas 将对这个 DataFrame 里所有的空位置填上你指定默认。...数值处理 查找不重复重复,在一个 DataFrame 里往往是独一无二,与众不同。找到不重复,在数据分析中有助于避免样本偏差。...除了列出所有不重复,我们还能用 .nunique() 方法,获取所有不重复个数: ? 此外,还可以用 .value_counts() 同时获得所有和对应计数: ?

25.8K64

Pandas必会方法汇总,建议收藏!

9 .drop() 删除Series和DataFrame指定索引。 10 .loc[标签,标签] 通过标签查询指定数据,第一个标签,第二标签。...,选取单列或列子集 4 df.1oc[val1,val2] 通过标签,同时选取 5 df.iloc[where] 通过整数位置,DataFrame选取单个子集 6 df.iloc[:,where...] 通过整数位置,DataFrame选取单个或列子集 7 df.iloc[where_i,where_j] 通过整数位置,同时选取 8 df.at[1abel_i,1abel_j] 通过标签...3 .drop_duplicates() 删除重复,返回删除DataFrame对象。...举例:删除后出现重复: df['city'].drop_duplicates() 结语 文章总结是都是一些Pandas常用方法,至于一些基础概念还需要你学到Pandas时候去理解,例如Series

4.7K40

Pandas必会方法汇总,数据分析必备!

9 .drop() 删除Series和DataFrame指定索引。 10 .loc[标签,标签] 通过标签查询指定数据,第一个标签,第二标签。...,选取单列或列子集 4 df.1oc[val1,val2] 通过标签,同时选取 5 df.iloc[where] 通过整数位置,DataFrame选取单个子集 6 df.iloc[where_i...,where_j] 通过整数位置,同时选取 7 df.at[1abel_i,1abel_j] 通过标签,选取单一标量 8 df.iat[i,j] 通过位置(整数),选取单一标量...3 .drop_duplicates() 删除重复,返回删除DataFrame对象。...举例:删除后出现重复: df['city'].drop_duplicates() 结语 文章总结是都是一些Pandas常用方法,至于一些基础概念还需要你学到Pandas时候去理解,例如Series

5.9K20

灰太狼数据世界(三)

我们工作除了手动创建DataFrame,绝大多数数据都是读取文件获得,例如读取csv文件,excel文件等等,那下面我们来看看pandas如何读取文件呢?...删除不完整(dropna) 假设我们想删除任何有缺失。这种操作具有侵略性,但是我们可以根据我们需要进行扩展。 我们可以使用isnull来查看dataframe是否有缺失。...) 我们也可以增加一些限制,在一中有多少非空数据是可以保留下来(在下面的例子,行数据至少要有 5 个非空) df1.drop(thresh=5) 删除不完整(dropna) 我们可以上面的操作应用到列上...删除重复(drop_duplicates) 表难免会有一些重复记录,这时候我们需要把这些重复数据都删除掉。...使用duplicated方法可以查找出是否有重复,使用drop_duplicated方法就可以直接将重复删除了。

2.8K30

python数据科学系列:pandas入门详细教程

,仅支持一维和二维数据,但数据内部可以是异构数据,仅要求同数据类型一致即可 numpy数据结构仅支持数字索引,而pandas数据结构则同时支持数字索引和标签索引 功能定位上看: numpy虽然也支持字符串等其他数据类型...、向前/向后填充等,也可通过inplace参数确定是否本地更改 删除,dropna,删除存在空整行或整列,可通过axis设置,也包括inplace参数 重复 检测重复,duplicated,...检测各行是否重复,返回一个索引bool结果,可通过keep参数设置保留第一/最后一/无保留,例如keep=first意味着在存在重复多行时,首被认为是合法而可以保留 删除重复,drop_duplicates...,可通过axis参数设置是按删除还是按删除 替换,replace,非常强大功能,对series或dataframe每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas...;sort_values是按排序,如果是dataframe对象,也可通过axis参数设置排序方向是还是同时根据by参数传入指定或者,可传入多行或多并分别设置升序降序参数,非常灵活。

13.8K20

快速提升效率6个pandas使用小技巧

剪切板创建DataFrame pandasread_clipboard()方法非常神奇,可以把剪切板数据变成dataframe格式,也就是说直接在excel复制表格,可以快速转化为dataframe...那如何处理缺失呢? 两种方式:删除和替换。...删除包含缺失: df.dropna(axis = 0) 删除包含缺失: df.dropna(axis = 1) 如果一里缺失超过10%,则删除: df.dropna(thresh...对连续数据进行离散化处理 在数据准备过程,常常会组合或者转换现有特征以创建一个新特征,其中将连续数据离散化是非常重要特征转化方式,也就是将数值变成类别特征。...多个文件构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件,但需要把它读取到一个DataFrame,这样需求该如何实现?

3.3K10

数据分析之Pandas VS SQL!

对于数据开发工程师或分析师而言,SQL 语言是标准数据查询工具。本文提供了一系列示例,说明如何使用pandas执行各种SQL操作。...相关语法如下: loc,基于label,可选取特定(根据index) iloc,基于/位置 ix,为loc与iloc混合体,既支持label也支持position at,根据指定index...宝器带你画重点: subset,为选定做数据去重,默认为所有; keep,可选择{'first', 'last', False},保留重复元素第一个、最后一个,或全部删除; inplace ,...这是因为count()将函数应用于每个,返回每个非空记录数量。具体如下: ? 还可以同时应用多个函数。例如,假设我们想要查看每个星期中每天小费金额有什么不同。 SQL: ?...总结: 本文Pandas里面基本数据结构Dataframe固定属性开始介绍,对比了做数据分析过程一些常用SQL语句Pandas实现。

3.1K20

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

~ 按 用多个文件建立 DataFrame ~ 按 剪贴板创建 DataFrameDataFrame 分割为两个随机子集 根据多个类别筛选 DataFrame 根据最大类别筛选 DataFrame...操控缺失 把字符串分割为多 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择 重塑多重索引 Series 创建透视表...注意:如果索引重复、不唯一,这种方式会失效。 13. 根据多个类别筛选 DataFrame 预览 movies。 ? 查看 genre(电影类型)。 ?...用 dropna() 删除所有缺失。 ? 只想删除缺失高于 10% 缺失,可以设置 dropna() 里阈值,即 threshold. ? 16....要解决这个问题得用 transform() 方法,这个方法执行同样计算,但返回与原始数据行数一样输出结果,本例为 4622 。 ?

7.1K20

删除重复,不只Excel,Python pandas

因此,我们将探讨如何使用Python数据表删除重复项,它超级简单、快速、灵活。 图1 准备用于演示数据框架 可以到完美Excel社群下载示例Excel电子表格以便于进行后续操作。...第3和第4包含相同用户名,但国家和城市不同。 删除重复 根据你试图实现目标,我们可以使用不同方法删除重复项。最常见两种情况是:整个表删除重复项或查找唯一。...我们将了解如何使用不同技术处理这两种情况。 整个表删除重复项 Python提供了一个方法.drop_duplicates()可以帮助我们轻松删除重复项!...图4 这一次,我们输入了一个列名“用户姓名”,并告诉pandas保留最后一个重复。现在pandas将在“用户姓名”检查重复项,并相应地删除它们。...如果我们指定inplace=True,那么原始df将替换为新数据框架,并删除重复项。 图5 在列表或数据表列查找唯一 有时,我们希望在数据框架列表查找唯一

5.9K30

6个提升效率pandas小技巧

剪切板创建DataFrame pandasread_clipboard()方法非常神奇,可以把剪切板数据变成dataframe格式,也就是说直接在excel复制表格,可以快速转化为dataframe...还可以看缺失在该占比是多少,用df.isna().mean()方法: df.isna().mean() ? 注意:这里isnull()和isna()使用效果一样。 那如何处理缺失呢?...删除包含缺失: df.dropna(axis = 0) 删除包含缺失: df.dropna(axis = 1) 如果一里缺失超过10%,则删除: df.dropna(thresh...对连续数据进行离散化处理 在数据准备过程,常常会组合或者转换现有特征以创建一个新特征,其中将连续数据离散化是非常重要特征转化方式,也就是将数值变成类别特征。...多个文件构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件,但需要把它读取到一个DataFrame,这样需求该如何实现?

2.8K20

Pandas 25 式

~ 按 用多个文件建立 DataFrame ~ 按 剪贴板创建 DataFrameDataFrame 分割为两个随机子集 根据多个类别筛选 DataFrame 根据最大类别筛选 DataFrame...操控缺失 把字符串分割为多 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择 重塑多重索引 Series 创建透视表...注意:如果索引重复、不唯一,这种方式会失效。 13. 根据多个类别筛选 DataFrame 预览 movies。 ? 查看 genre(电影类型)。 ?...用 dropna() 删除所有缺失。 ? 只想删除缺失高于 10% 缺失,可以设置 dropna() 里阈值,即 threshold. ? 16....要解决这个问题得用 transform() 方法,这个方法执行同样计算,但返回与原始数据行数一样输出结果,本例为 4622 。 ?

8.4K00
领券