首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

30 个小例子帮你快速掌握Pandas

我们删除了4列,因此列数从14减少到10。 2.读取时选择特定的列 我们只打算读取csv文件的某些列。读取时,列列表将传递给usecols参数。如果您事先知道列名,则比以后删除更好。...8.删除缺失 处理缺失的另一种方法是删除它们。“已退出”列仍缺少。以下代码将删除缺少任何的行。...16.带删除的重置索引 在某些情况下,我们需要重置索引并同时删除原始索引。考虑从DataFrame抽取样本的情况。该示例将保留原始DataFrame的索引,因此我们要重置它。...df_new['rank'] = df_new['Balance']\ .rank(method='first', ascending=False).astype('int') df_new ?...26.减少浮点数的小数点位数 Pandas的浮点数可能会显示过多的小数点。我们可以使用舍入函数轻松调整它。 df_new.round(1)#所需的小数位数 ?

10.6K10

6个提升效率的pandas小技巧

从剪切板创建DataFrame pandas的read_clipboard()方法非常神奇,可以把剪切板的数据变成dataframe格式,也就是说直接在excel复制表格,可以快速转化为dataframe...将strings改为numbers 在pandas,有两种方法可以将字符串改为数值: astype()方法 to_numeric()方法 先创建一个样本dataframe,看看这两种方法有什么不同。...下面我们用astype()方法将price列的数据类型改为int: df['price'] = df['price'].astype(int) # 或者用另一种方式 df = df.astype({'price...': 'int'}) 但如果你同样用astype()方法更改sales列的话就会出现报错: df['sales'] = df['sales'].astype(int) ?...删除包含缺失的行: df.dropna(axis = 0) 删除包含缺失的列: df.dropna(axis = 1) 如果一列里缺失超过10%,则删除该列: df.dropna(thresh

2.8K20

【新星计划】【数据清洗】pandas库清洗数据的七种方式

1.处理数据的空 我们在处理真实的数据时,往往会有很多缺少的的特征数据,就是所谓的空,必须要进行处理才能进行下一步分析 空的处理方式有很多种,一般是删除或者填充 Excel通过“查找和替换”功能实现空的统一替换...pandas处理空的方式比较灵活,可以使用dropna函数删除 import pandas as pd data=pd.read_csv('成绩表.csv',encoding='gbk') data.dropna...2.删除空格 excel清理空格很简单,直接替换即可 pandas删除空格也很方便,主要使用map函数 data['姓名']=data['姓名'].map(str.strip) data ?...pandas使用astype来修改数据格式,以将“语文”列改成整数为例 data['语文'].dropna(how='any').astype('int') ?...6.删除重复 excel的功能区“数据”下有“删除重复项”,可以用来删除的重复,默认保留最第一个重复,把后面的删除: ?

1.2K10

分享几个常用的Python函数,助你快速成为Pandas大神!!

在Python当中模块Pandas在数据分析以及可视化当中是被使用的最多的,也是最常见的模块,模块当中提供了很多的函数和方法来应对数据清理、数据分析和数据统计,今天小编就通过20个常用的函数方法来为大家展示一下其中的能力...0 dtype: int64 3....('int') ?...展示小数点后面的几位小数 数据集当中对于浮点型的数字,小数点后面可能仍然会有很多的数字,我们可以通过“round”方法来进行调整,例如我们保留一位小数 df.round(1).head() ?...标注重点 我们有时候可能需要对数据集当中某些数据打标签,表上颜色来显示其重要性,在“Pandas”模块中有“style”这个方法可以使用,例如下面的代码将“Salary”以及“Catalogs”这两列的最大标出来了

56820

6个提升效率的pandas小技巧

从剪切板创建DataFrame pandas的read_clipboard()方法非常神奇,可以把剪切板的数据变成dataframe格式,也就是说直接在excel复制表格,可以快速转化为dataframe...将strings改为numbers 在pandas,有两种方法可以将字符串改为数值: astype()方法 to_numeric()方法 先创建一个样本dataframe,看看这两种方法有什么不同。...下面我们用astype()方法将price列的数据类型改为int: df['price'] = df['price'].astype(int) # 或者用另一种方式 df = df.astype({'price...': 'int'}) 但如果你同样用astype()方法更改sales列的话就会出现报错: df['sales'] = df['sales'].astype(int) ?...删除包含缺失的行: df.dropna(axis = 0) 删除包含缺失的列: df.dropna(axis = 1) 如果一列里缺失超过10%,则删除该列: df.dropna(thresh

2.3K20

Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

. isnull(obj)  1.1.1.2 notnull()语法格式:  pandas . notnull(obj)  ​ notnull()与 isnull()函数的功能是一样的,都可以判断数据是否存在空或缺失...例如,通过爬虫采集到的数据都是整型的数据,在使用数据时希望保留两位小数点,这时就需要将数据的类型转换成浮点型。  ​...1.4.1 在使用构造方法的 dtype参数指定数据类型  1.4.2 通过 astype()方法可以强制转换数据的类型。  ​ dtype:表示数据的类型。 ​...astype()方法存在着一些局限性,只要待转换的数据存在非数字以外的字符,在使用 astype()方法进行类型转换时就会出现错误,而to_numeric()函数的出现正好解决了这个问题。 ...bins:接收int和序列类型的数据。(序列划分区间)  right:是否包含右端点,决定区间的开闭,默认为True。  ​

5.1K00

Pandas针对某列的百分数取最大无效?(下篇)

上一篇文章【瑜亮老师】先取最大所在的行,然后在转换格式展示数据。这个思路顺利地解决了粉丝的问题,这一篇文章我们一起来看看另外的一个解决思路。那如果这excel已经有百分数了,怎么取最大数?...: df['比例'] = df['比例'].replace('%', '', regex=True).astype(float) / 100 max1 = df[df.比例 == df.比例.max()...] max1['比例'] = max1['比例'].apply(lambda x: '{:.2%}'.format(x)) print(max1) 先把%删除,然后文本类型的数字转换成float /...excel里面可以选择数值展示的样式,比如百分比、小数点后0位或几位、数字前面是否有¥$€等等。负数是否展示-号,负数的颜色等等等,日期还有长短类型,是否展示时间,星期等。...这篇文章主要盘点了一个Pandas数据提取的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

13710

将文本字符串转换成数字,看pandas是如何清理数据的

标签:pandas 本文研讨将字符串转换为数字的两个pandas内置方法,以及当这两种方法单独不起作用时,如何处理一些特殊情况。 运行以下代码以创建示例数据框架。...记住,数据框架的所有都是字符串数据类型。 图1 df.astype()方法 这可能是最简单的方法。我们可以获取一列字符串,然后强制数据类型为数字(即整数或浮点数)。...对于第一列,因为我们知道它应该是“整数”,所以我们可以在astype()转换方法输入int。 图2 然而,如果数据包含小数,int将不起作用。...在pd.to_numeric方法,当errors=’coerce’时,代码将运行而不引发错误,但对于无效数字将返回NaN。 然后我们可以用其他伪(如0)替换这些NaN。...图4 图5 包含特殊字符的数据 对于包含特殊字符(如美元符号、百分号、点或逗号)的列,我们需要在将文本转换为数字之前先删除这些字符。

6.5K10

Pandas 数据类型概述与转换实战

列应该是一个布尔 也就是说,在我们进行数据分析之前,我们必须手动更正这些数据类型 在 pandas 中转换数据类型,有三个基本选项: 使用 astype() 强制转换数据类型 创建自定义函数来转换数据...使用 pandas 函数,例如 to_numeric() 或 to_datetime() 使用 astype() 函数 将 pandas 数据列转换为不同类型的最简单方法是使用 astype(),例如...在 sales 列,数据包括货币符号以及每个的逗号;在 Jan Units 列,最后一个是“Closed”,它不是数字 我们再来尝试转换 Active 列 df['Active'].astype...但这不是 pandas 的内置数据类型,所以我们使用 float 方法 现在我们可以使用 pandas 的 apply 函数将其应用于 2016 列的所有 df['2016'].apply(convert_currency...这两者都可以简单地使用内置的 pandas 函数进行转换,例如 pd.to_numeric() 和 pd.to_datetime() Jan Units 转换存在问题的原因是列包含非数字

2.4K20

数据类型合理选择有效减少内存占用

1、优化数据类型减少内存占用 一般来说pandas 它会自动推断出数据类型,如果数值型列数据包括了缺失,推断数据类型就会自动填充为浮点型。推断的数据类型并不一定是最优,有时候会产生意想不到的结果。...的浮点类型有float16、float32、float64三类,它们对应不同的小数范围: import numpy as np print(f"{np.finfo(np.float16).min}~{...思路:遍历每一列,然后找出该列的最大与最小,我们将这些最大最小与子类型当中的最大最小去做比较,选择字节数最小的子类型。...> np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max: x = x.astype(np.int16)...= x.astype(np.int32) elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).

1.5K10

Pandas Cookbook》第03章 数据分析入门1. 规划数据分析路线2. 改变数据类型,降低内存消耗3. 从最大中选择最小4. 通过排序选取每组的最大5. 用sort_values复现nl

# 列出每列的数据类型,非缺失的数量,以及内存的使用 In[7]: college.info() RangeIndex:...STABBR 59 dtype: int64 # STABBR列可以转变为“类型”(Categorical),独立的个数小于总数的1% In[19]: col2['STABBR...# 数据字典的信息显示MENONLY这列只包含0和1,但是由于含有缺失,它的类型是浮点型 In[25]: college['MENONLY'].dtype Out[25]: dtype('float64...') # 任何数值类型的列,只要有一个缺失,就会成为浮点型;这列的任何整数都会强制成为浮点型 In[26]: college['MENONLY'].astype('int8') # ValueError...'RELAFFIL'] = college['RELAFFIL'].astype('int8') In[33]: college.index = pd.Int64Index(college.index

1.3K20

Pandas全景透视:解锁数据科学的黄金钥匙

索引提供了对 Series 数据的标签化访问方式。(Values): 是 Series 存储的实际数据,可以是任何数据类型,如整数、浮点数、字符串等。...0或’index’,表示按行删除;1或’columns’,表示按列删除。inplace:是否原地替换。布尔,默认为False。如果为True,则在原DataFrame上进行操作,返回为None。...limit:int, default None。如果method被指定,对于连续的空,这段连续区域,最多填充前 limit 个空(如果存在多段连续区域,每段最多填充前 limit 个空)。...([1, 2], dtype='int64')⑤.astype() 方法用于将 Series 的数据类型转换为指定的数据类型举个例子import pandas as pd# 创建一个 Seriess =...n份(即每一组内的最大与最小之差约相等);如果是标量序列,序列的数值表示用来分档的分界如果是间隔索引,“ bins”的间隔索引必须不重叠举个例子import pandas as pd# 创建一个

8610
领券