首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

,不同处在于,前者发现数据中有空或缺失返回False,后者返回是True.  1.1.2 使用 dropna()和fillna()方法  ​ 对缺失进行删除和填充。 ...keep:删除重复并保留第一次出现取值可以为 first、last或 False  ​ duplicated()方法用于标记 Pandas对象数据是否重复,重复则标记为True,不重复则标记为False...,所以该方法返回一个由布尔组成Series对象,它行索引保持不变,数据则变为标记布尔  强调注意:  ​ (1)只有数据表中两个条目间所有列内容都相等时,duplicated()方法才会判断为重复...to_replace:表示查找被替换方式 ​ value:用来替换任何匹配 to_replace,默认None.  1.4 更改数据类型  ​ 在处理数据时,可能会遇到数据类型不一致问题。...2.2 主键合并数据  ​ 主键合并类似于关系型数据库连接方式,它是指根据个或多个键将不同 DataFrame对象连接起来,大多数是将两个 DataFrame对象中重叠列作为合并键。

5.1K00

懂Excel就能轻松入门Python数据分析包pandas(五):重复处理

后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 有时候数据中出现重复,可能会导致最后统计结果出现错误,因此,查找和移除重复是数据处理中常见操作...标记重复 pandas 中同样提供一个简单方法标记出重复,并且比 Excel 有更多灵活处理方式供你选择,我们来看看: - DataFrame.duplicated() ,生成是否为重复记录布尔标记...但是 pandas 中有直接方法去除重复。如下: - 调用 DataFrame.drop_duplicates() ,即可去除重复 - 他参数与规则与 duplicated 一模一样。...实际就是把 duplicated() 标记为 True 行去掉而已 最后 - DataFrame.duplicated() ,标记出重复。...使用 subset 指定重复判断列,keep={'first','last',False} 指定怎么判断哪些是重复 - DataFrame.drop_duplicates() ,去除重复 下一节,

94520

懂Excel就能轻松入门Python数据分析包pandas(五):重复处理

后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 有时候数据中出现重复,可能会导致最后统计结果出现错误,因此,查找和移除重复是数据处理中常见操作...标记重复 pandas 中同样提供一个简单方法标记出重复,并且比 Excel 有更多灵活处理方式供你选择,我们来看看: - DataFrame.duplicated() ,生成是否为重复记录布尔标记...但是 pandas 中有直接方法去除重复。如下: - 调用 DataFrame.drop_duplicates() ,即可去除重复 - 他参数与规则与 duplicated 一模一样。...实际就是把 duplicated() 标记为 True 行去掉而已 最后 - DataFrame.duplicated() ,标记出重复。...使用 subset 指定重复判断列,keep={'first','last',False} 指定怎么判断哪些是重复 - DataFrame.drop_duplicates() ,去除重复 下一节,

1.3K20

Pandas_Study02

去除 NaN 在Pandas各类数据Series和DataFrame里字段为NaN为缺失数据,不代表0而是说没有赋值数据,类似于pythonNone。...首先,可以通过isnull 和 notnull 方法查看有哪些NaN,这两个方法返回布尔,指示该是否是NaN,结合sum 方法可以获取每列空数目以及总数。...删除重复数据 对于数据源中重复数据,一般来讲没有什么意义,所以一般情况下都会进行删除操作。 duplicated() duplicated 方法可以返回重复数据分布情况,以布尔显示。...外连接,分左外连接,右外连接,全连接,左外连接是左表上所有行匹配右表,正常能匹配取B表,不能取空,右外连接同理,全连接则是取左并上右表所有行,没能匹配用空填充。...size函数则是可以返回所有分组字节大小。count函数可以统计分组后各列数据个数。get_group函数可以返回指定组数据信息。而discribe函数可以返回分组后数据统计数据。

17910

数据导入与预处理-课程总结-04~06章

("*") 2.3 重复处理 2.3.1 重复检测 pandas中使用duplicated()方法来检测数据中重复。...DataFrame.duplicated(subset=None, keep='first') subset:表示识别重复列索引或列索引序列,默认标识所有的列索引。...duplicated()方法检测完数据后会返回一个由布尔组成Series类对象,该对象中若包含True,说明True对应一行数据为重复。...df.duplicated() # 返回boolean数组 # 查找重复 # 将全部重复所在行筛选出来 df[df.duplicated()] # 查找重复|指定 # 上面是所有列完全重复情况...,可以取值为’inner’或’outer’(默认),其中’inner’表示内连接,即合并结果为多个对象重叠部分索引及数据,没有数据位置填充为NaN;'outer’表示外连接,即合并结果为多个对象各自索引及数据

13K10

Pandas数据处理4、DataFrame记录重复出现次数(是总数不是每个数量)

Pandas数据处理4、DataFrame记录重复出现次数(是总数不是每个数量) ---- 目录 Pandas数据处理4、DataFrame记录重复出现次数(是总数不是每个数量) 前言...环境 基础函数使用 DataFrame记录每个出现次数 重复数量 重复 打印重复 总结 ---- 前言         这个女娃娃是否有一种初恋感觉呢,但是她很明显不是一个真正意义存在图片...---- 环境 系统环境:win11 Python版本:python3.9 编译工具:PyCharm Community Edition 2022.3.1 Numpy版本:1.19.5 Pandas...记录每个出现次数 语法 DataFrame.duplicated(subset=None,keep='first') 参数 subset:判断是否是重复数据时考虑列 keep:保留第一次出现重复数据还是保留最后一次出现...----") # duplicated pr = df.duplicated(subset=['name']) print("重复:") print(pr) 可以看到数值匹配

2.3K30

数据专家最常使用 10 大类 Pandas 函数 ⛵

具有极其活跃社区和覆盖全领域第三方库工具库,近年来一直位居编程语言热度头部位置,而数据科学领域最受欢迎python工具库之一是 Pandas。...以下函数很常用:duplicated: 识别DataFrame中是否有重复,可以指定使用哪些列来标识重复。drop_duplicates:从 DataFrame 中删除重复。...一般建议大家先使用 duplicated检查重复,确定业务上需要删除重复,再使用这个函数。图片 6.处理缺失现实数据集中基本都会存在缺失情况,下面这些函数常被用作检查和处理缺失。...图片 9.合并数据集我们对多个数据集Dataframe合并时候,可能用到下列函数(包括表关联和拼接)。merge:基于某些字段进行表关联。...当我们有多个相同形状/存储相同信息 DataFrame 对象时,它很有用。

3.5K21

《利用Python进行数据分析·第2版》第7章 数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

duplicated方法返回一个布尔型Series,表示各行是否是重复行(前面出现过行): In [47]: data.duplicated() Out[47]: 0 False 1...如果DataFrame某一列中含有k个不同,则可以派生出一个k列矩阵或DataFrame(其全为1和0)。...findall返回是字符串中所有的匹配,而search则只返回第一个匹配。match更加严格,它只匹配字符串首部。...(以特殊匹配对象形式返回)。...None,因为它只匹配出现在字符串开头模式: In [159]: print(regex.match(text)) None 相关,sub方法可以将匹配模式替换为指定字符串,并返回所得到新字符串

5.2K90

pandas数据清洗,排序,索引设置,数据选取

1000:0}) 重复处理duplicated(),unique(),drop_duplictad() df.duplicated()#两行每列完全一样才算重复,后面重复为True,第一个和不重复为...false,返回true #和false组成Series类型 df.duplicated('key')#两行key这一列一样就算重复 df['A'].unique()#..., 默认:更新index,返回一个新DataFrame # 返回一个新DataFrame,更新index,原来index会被替代消失 # 如果dataframe中某个索引不存在,会自动补上NaN...'b','c','d','e'], fill_value=0) # inplace=Ture,在DataFrame上修改数据,而不是返回一个新DataFrame df1.reindex(['a',...模糊筛选数据(类似SQL中LIKE) # 使用正则表达式进行模糊匹配,*匹配0或无限次,?

3.2K20

数据分析利器--Pandas

详解:标准安装Python中用列表(list)保存一组,可以用来当作数组使用,不过由于列表元素可以是任何对象,因此列表中所保存是对象指针。...在底层,数据是作为一个或多个二维数组存储,而不是列表,字典,或其它一维数组集合。因为DataFrame在内部把数据存储为一个二维数组格式,因此你可以采用分层索引以表格格式来表示高维数据。...千数量分隔符 3.5处理无效 这里需要掌握三个函数: pandas.isna(): 判断哪些是无效 pandas.DataFrame.dropna(): 抛弃无效 pandas.DataFrame.fillna...(): 将无效替换成为有效 具体用法参照:处理无效 4、Pandas常用函数 函数 用法 DataFrame.duplicated() DataFrameduplicated方法返回一个布尔型...DataFrame.drop_duplicates() 它用于返回一个移除了重复行DataFrame DataFrame.fillna() 将无效替换成为有效 5、Pandas常用知识点 5.1

3.6K30

数据分析之pandas模块

5,数据清洗   主要用isnull()判断是否为空,notnull()判断是否不为空,返回都是为bool型Series,然后把它作为索引,就可以把为False给删除。 ?   ...1,DataFrame创建   最常用方法是传递一个字典,以字典key为列索引,以每一个key对应作为对应列数据,所以应该是个列表。还可以指定行索引,但不可以指定列索引。 ?   ...5,多层索引   5.1 隐式构造,最常用方法是给DataFrame构造函数index或columns传递两个或多个数组。 ?   ...参数join:'outer'将所有的进行级联(忽略匹配和不匹配),'inner'只会把匹配进行级联。 ?   由于在以后级联使用很多,因此有一个函数append专门用于在后面添加。 ?   ...8,删除重复元素   使用duplicated()函数检测重复行,返回元素为bool类型Series对象,keep参数:指定保留哪一行重复元素 ?

1.1K20

pandas技巧4

pd.ExcelWriter('test.xlsx',index=False) # 然后调用df1.to_excel(writer,sheet_name='单位') 和 writer.save(),将多个数据帧写入同一个工作簿多个...=False) # 查看Series对象唯一和计数 df.apply(pd.Series.value_counts) # 查看DataFrame对象中每一列唯一和计数 df.isnull().any...() # 查看是否有缺失 df[df[column_name].duplicated()] # 查看column_name字段数据重复数据信息 df[df[column_name].duplicated...() # 检查DataFrame对象中,并返回一个Boolean数组 pd.notnull() # 检查DataFrame对象中非空,并返回一个Boolean数组 df.dropna() #...df.mean() # 返回所有列均值 df.corr() # 返回列与列之间相关系数 df.count() # 返回每一列中非空个数 df.max() # 返回每一列最大 df.min

3.4K20

python数据科学系列:pandas入门详细教程

这三者是构成递进包容关系,panel即是dataframe容器,用于存储多个dataframe。...自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、多列或多行:单或多值(多个列名组成列表)访问时按列进行查询,单访问不存在列名歧义时还可直接用属性符号" ....isin/notin,条件范围查询,即根据特定列是否存在于指定列表返回相应结果 where,仍然是执行条件查询,但会返回全部结果,只是将不满足匹配条件结果赋值为NaN或其他指定,可用于筛选或屏蔽...、向前/向后填充等,也可通过inplace参数确定是否本地更改 删除空,dropna,删除存在空整行或整列,可通过axis设置,也包括inplace参数 重复 检测重复duplicated,...,按行检测并删除重复记录,也可通过keep参数设置保留

13.8K20

pandas 重复数据处理大全(附代码)

定位重复 对于重复,我们首先需要查看这些重复是什么样形式,然后确定删除范围,而查询重复需要用到duplicated函数。...duplicated返回是布尔返回True和False,默认情况下会按照一行所有内容进行查重。 主要参数: subset:如果不按照全部内容查重,那么需要指定按照哪些列进行查重。...() ---------- 0 False 1 False 2 False dtype: bool ----------- 上面提到duplicated返回布尔,所以如果要想输出这些重复...和duplicated()函数参数类似,主要有3个参数: subset:同duplicated(),设置去重字段 keep: 这里稍有不同,duplicated()中是将除设置以外重复返回True...默认为False,是否直接在原数据上删除重复或删除重复返回副本。

2.3K20
领券