首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

整理了 25 个 Pandas 实用技巧,拿走不谢!

使用这个函数最好的方式是你需要更改任意数量的列名,不管是一列或者全部的列。 如果你需要一次性重新命令所有的列名,更简单的方式就是重写DataFrame的columns属性: ?...如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至DataFrame: ? 17....注意到,Age列保留到小数点后1位,Fare列保留到小数点后4位。如果你想要标准,将显示结果保留到小数点后2位呢? 你可以使用set_option()函数: ?...set_option()函数中第一个参数为选项的名称,第二个参数为Python格式字符。可以看到,Age列和Fare列现在已经保留小数点后两位。...让我们回到stocks这个DataFrame: ? 我们可以创建一个格式字符串的字典,用于对每一列进行格式。然后将其传递给DataFrame的style.format()函数: ?

3.2K10
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas个人操作练习(1)创建dataframe及插入列、行操作

创建 pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) data:numpy ndarray(结构或同类...data,其他默认,可以看到索引和列名都为(0,1,2,,,n),可以看出dataframe最不能缺少的为data df = pd.DataFrame(np.random.randn(8,5)) (2...(range(0,10),6)0-9这十位数中随机选出6位 test_list=[] for i in range(3000): test_list.append("123456"+"".join...(data = data) 二、dataframe插入列/多列 添加一列数据,,把dataframe如df1中的一列或若干列加入另一个dataframe,如df2 思路:先把数据按列分割,然后再把分出去的列重新插入...关键点是axis=1,指明是列的拼接 三、dataframe插入行 插入行数据,前提是要插入的这一行的值的个数能与dataframe中的列数对应且列名相同,思路:先切割,再拼接。

1.8K20

Pandas数据分析

分析前操作 我们使用read读取数据集时,可以先通过info 方法了解不同字段的条目数量,数据类型,是否缺失及内存占用情况 案例:找到小成本高口碑电影  思路:最大的N个值中选取最小值 movie2....last') # drop_duplicate方法的keep参数用于指定在删除重复行时保留哪个重复项 # 'first'(默认):保留第一个出现的重复项,删除后续重复项。...添加一列,不需要调用函数,通过dataframe['列名'] = ['值'] 即可 通过dataframe['列名'] = Series对象 这种方式添加一列 数据连接 merge 数据库中可以依据共有数据把两个或者多个数据表组合起来...DataFrame可以考虑使用join函数 how = ’left‘ 对应SQL中的 left outer 保留左侧表中的所有key how = ’right‘ 对应SQL中的 right outer...保留右侧表中的所有key how = 'outer' 对应SQL中的 full outer 保留左右两侧侧表中的所有key how = 'inner' 对应SQL中的 inner 只保留左右两侧都有的

9410

【Python】这25个Pandas高频实用技巧,不得不服!

按列多个文件中构建DataFrame 上一个技巧对于数据集中每个文件包含行记录很有用。但是如果数据集中的每个文件包含的列信息呢?...DataFrame中筛选出数量最多的类别 假设你想要对movies这个DataFrame通过genre进行过滤,但是只需要前3个数量最多的genre。...比如说,让我们以", "来划分location这一列: df.location.str.split(', ', expand=True) 如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至...如果你想要标准,将显示结果保留到小数点后2位呢?...我们回到stocks这个DataFrame: stocks 我们可以创建一个格式字符串的字典,用于对每一列进行格式

6.4K40

玩转数据处理120题|Pandas版本

Python解法 df['涨跌幅(%)'].hist(bins = 30) 61 数据创建 题目:以data的列名创建一个dataframe 难度:⭐⭐ Python解法 temp = pd.DataFrame...(1,100,20) df1 = pd.DataFrame(tem) 83 数据创建 题目:NumPy数组创建DataFrame 难度:⭐ 备注 使用numpy生成20个0-100固定步长的数 Python...解法 tem = np.arange(0,100,5) df2 = pd.DataFrame(tem) 84 数据创建 题目:NumPy数组创建DataFrame 难度:⭐ 备注 使用numpy生成20...备注 数据1中的前10行中读取positionName, salary两列 Python解法 df1 = pd.read_csv(r'C:\Users\chenx\Documents\Data Analysis...:⭐⭐ 备注 数据2中读取数据并在读取数据时将薪资大于10000的为改为高 Python解法 df2 = pd.read_csv(r'C:\Users\chenx\Documents\Data Analysis

7.4K40

Pandas | Dataframe的merge操作,像数据库一样尽情join

这里虽然我们没有指定根据哪一列完成关联,但是pandas会自动寻找两个dataframe的名称相同列来进行关联。一般情况下我们不这么干,还是推荐大家指定列名。...但假如两个dataframe当中的列名不一致怎么办,比如这两个dataframe当中的一列叫做id,一列叫做number,该怎么完成join呢?...2, 4, 4, 5, 6, 7], 'score': range(7)}) 这个时候就需要用left_on指定左表用来join的列名,用right_on指定右表用来join的列名。...如果是left join,那边左边当中所有的数据都会保留,关联不上的列置为None,同理,如果是right join,则右表全部保留,outer join则会全部保留。...对于dataframe同样也有这样的操作,不过换了一个名字叫做concat。如果我们不指定的话会竖着拼接: ? 竖着拼接的时候会按照列进行对齐,如果列名对不上就会填充NaN。

3.1K10

灰太狼的数据世界(三)

dataframe里面有个属性叫index,那这个就是索引对应的也是数据库的索引,你也可以把它理解成主键。第二个属性是columns,这个就是一列。对应数据库的表也是一列。...这就是我们上节课讲的,Series有默认索引,从零开始,那这个dataframe也就会和Series一样,如果不给他指定值(列名或索引),他就会从零开始计数。...):字典对象导入数据,Key是列名,Value是数据 pandas支持多个数据源导入数据,包含文件,字典,json,sql,html等等。...通过rename方法来修改列名,本质上并没有修改原来的dataframe,而是生成新的dataframe替换了列名。...在DataFrame中增加一列,我们可以直接给值来增加一列,就和python的字典里面添加元素是一样的: import pandas as pd import numpy as np val = np.arange

2.8K30

整理了25个Pandas实用技巧

剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中,你又想要尽快地将他们读取至DataFrame中。 你需要选择这些数据并复制至剪贴板。...如果我们想要划分一个字符串,但是仅保留其中一个结果列呢?比如说,让我们以", "来划分location这一列: ?...如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至DataFrame: ? Series扩展成DataFrame 让我们创建一个新的示例DataFrame: ?...如果你不是对所有列都感兴趣,你也可以传递列名的切片: ? MultiIndexed Series重塑 Titanic数据集的Survived列由1和0组成,因此你可以对这一列计算总的存活率: ?...让我们回到stocks这个DataFrame: ? 我们可以创建一个格式字符串的字典,用于对每一列进行格式。然后将其传递给DataFrame的style.format()函数: ?

2.8K40

整理了25个Pandas实用技巧(下)

剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中,你又想要尽快地将他们读取至DataFrame中。 你需要选择这些数据并复制至剪贴板。...我们将会使用str.split()函数,告诉它以空格进行分隔,并将结果扩展成一个DataFrame: 这三列实际上可以通过一行代码保存至原来的DataFrame: 如果我们想要划分一个字符串,但是仅保留其中一个结果列呢...比如说,让我们以", "来划分location这一列: 如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至DataFrame: Series扩展成DataFrame 让我们创建一个新的示例...DataFrame组合起来: 对多个函数进行聚合 让我们来看一眼Chipotle restaurant chain得到的orders这个DataFrame: In [82]: orders.head...让我们回到stocks这个DataFrame: 我们可以创建一个格式字符串的字典,用于对每一列进行格式

2.4K10

Pandas进阶修炼120题|完整版

1 创建DataFrame 题目:将下面的字典创建为DataFrame data = {"grammer":["Python","C","Java","GO","R","SQL","PHP","Python...答案 data['涨跌幅(%)'].hist(bins = 30) 61 数据创建 题目:以data的列名创建一个dataframe 难度:⭐⭐ 答案 temp = pd.DataFrame(columns...__version__) 82 数据创建 题目:NumPy数组创建DataFrame 难度:⭐ 备注 使用numpy生成20个0-100随机数 答案 tem = np.random.randint(...1,100,20) df1 = pd.DataFrame(tem) 83 数据创建 题目:NumPy数组创建DataFrame 难度:⭐ 备注 使用numpy生成20个0-100固定步长的数 答案 tem...= np.arange(0,100,5) df2 = pd.DataFrame(tem) 84 数据创建 题目:NumPy数组创建DataFrame 难度:⭐ 备注 使用numpy生成20个指定分布

11.6K106

python数据科学系列:pandas入门详细教程

正因如此,可以两个角度理解series和dataframe: series和dataframe分别是一维和二维数组,因为是数组,所以numpy中关于数组的用法基本可以直接应用到这两个数据结构,包括数据创建...、切片访问、通函数、广播机制等 series是带标签的一维数组,所以还可以看做是类字典结构:标签是key,取值是value;而dataframe则可以看做是嵌套字典结构,其中列名是key,每一列的series...自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、多列或多行:单值或多值(多个列名组成的列表)访问时按列进行查询,单值访问不存在列名歧义时还可直接用属性符号" ..../最后一行/无保留,例如keep=first意味着在存在重复的多行时,首行被认为是合法的而可以保留 删除重复值,drop_duplicates,按行检测并删除重复的记录,也可通过keep参数设置保留项。...07 数据可视 ? pandas集成了matplotlib中的常用可视图形接口,可通过series和dataframe两种数据结构面向对象的接口方式简单调用。

13.8K20

python数据分析笔记——数据加载与整理

2、当文件没有标题行时 可以让pandas为其自动分配默认的列名。 也可以自己定义列名。 3、将某一列作为索引,比如使用message列做索引。通过index_col参数指定’message’。...4、要将多个列做成一个层次索引,只需传入由列编号或列名组成的列表即可。...当没有指明用哪一列进行连接时,程序将自动按重叠列的列名进行连接,上述语句就是按重叠列“key”列进行连接。也可以通过on来指定连接列进行连接。...当两个对象的列名不同时,即两个对象没有共同列时,也可以分别进行指定。 Left_on是指左侧DataFrame中用作连接的列。 right_on是指右侧DataFrame中用作连接的列。...默认情况下,此方法是对所有的列进行重复项清理操作,也可以用来指定特定的一列或多列进行。 默认情况下,上述方法保留的是第一个出现的值组合,传入take_last=true则保留最后一个。

6K80

妈妈再也不用担心我忘记pandas操作了

() pd.DataFrame(dict) # 字典对象导入数据,Key是列名,Value是数据 导出数据: df.to_csv(filename) # 导出数据到CSV文件 df.to_excel(...(np.random.rand(20,5)) # 创建20行5列的随机数组成的DataFrame对象 pd.Series(my_list) # 可迭代对象my_list创建一个Series对象 df.index...s.value_counts(dropna=False) # 查看Series对象的唯一值和计数 df.apply(pd.Series.value_counts) # 查看DataFrame对象中每一列的唯一值和计数...数据选取: df[col] # 根据列名,并以Series的形式返回列 df[[col1, col2]] # 以DataFrame形式返回多列 df.iloc[0] # 按位置选取数据 df.loc[...中的每一列应用函数np.mean data.apply(np.max,axis=1) # 对DataFrame中的每一行应用函数np.max 其它操作: 改列名: 方法1 a.columns = ['a

2.2K31
领券