首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

这些pandas技巧你还不会吗 | Pandas实用手册(PART II)

宠粉号主闪现赶到,来看看pandas系列第二篇吧: 数据清理 & 整理 取得想要关注数据 数据清理&整理 这节列出一些十分常用数据清理整理技巧,处理空值(null value)以及分割。...针对字符串类型特征,你也可以将空值设定成任何容易识别的值,让自己及他人明确了解DataFrame 数据: ? 舍弃不需要行列 给定一个初始DataFrame, ?...你可以使用drop函数来舍弃不需要,记得将axis设为1: ? 同理,你也可以舍弃特定(row), ?...你可以使用reset_index函数来重置DataFrame索引并轻松存取想要部分: ?...注意我们使用df[columns] = ...形式将字串切割出来2个新栏分别指定成性格特技。 将list切割成多个 有时候一个栏位里头值为Python list: ?

1.1K20
您找到你想要的搜索结果了吗?
是的
没有找到

用过Excel,就会获取pandas数据框架值、

df.columns 提供(标题)名称列表。 df.shape 显示数据框架维度,在本例为45。 图3 使用pandas获取 有几种方法可以在pandas获取。...语法如下: df.loc[] 其中,是可选,如果留空,我们可以得到整行。由于Python使用基于0索引,因此df.loc[0]返回数据框架第一。...获取1 图7 获取多行 我们必须使用索引/切片来获取多行。在pandas,这类似于如何索引/切片Python列表。...想想如何在Excel引用单元格,例如单元格“C10”或单元格区域“C10:E20”。以下两种方法都遵循这种思想。 方括号表示法 使用方括号表示法,语法如下:df[列名][索引]。...这有时称为链式索引。记住这种表示法一个更简单方法是:df[列名]提供一然后添加另一个[索引]将提供该特定项。 假设我们想获取第2Mary Jane所在城市。

18.9K60

数据导入预处理-课程总结-04~06章

header:表示指定文件哪一数据作为DataFrame类对象索引,默认为0,即第一数据作为索引。...header:表示指定文件哪一数据作为DataFrame类对象索引。 names:表示DataFrame类对象索引列表。...duplicated()方法检测完数据后会返回一个由布尔值组成Series类对象,该对象若包含True,说明True对应数据为重复项。...它们区别是: df.join() 相同行索引数据被合并在一起,因此拼接后行数不会增加(可能会减少)、数增加; df.merge()通过指定索引进行合并,行列都有可能增加;merge也可以指定索引进行合并...输出为: 使用stack转行 # 重塑df,使之具有两层索引 # 原来数据one, two, three就到了上来了,形成多层索引

13K10

数据导入预处理-课程总结-01~03章

DataFrame类对象索引位于最左侧一索引位于最上面一,且每个索引对应着一数据。DataFrame类对象其实可以视为若干个公用索引Series类对象组合。...使用[]访问数据 变量[索引] 需要说明是,若变量值是一个Series类对象,则会根据索引获取该对象对应单个数据;若变量值是一个DataFrame类对象,在使用“[索引]”访问数据时会将索引视为索引...,进而获取索引对应数据。...需要说明是,若变量是一个DataFrame类对象,它在使用"loc[索引]"或"iloc[索引]"访问数据时会将索引视为索引获取索引对应数据。...变量.at[索引, 索引] 变量.iat[索引, 索引] 以上方式,"at[索引, 索引]"索引必须为自定义标签索引,"iat[索引, 索引]"索引必须为自动生成整数索引

2.9K20

pandas多级索引骚操作!

比如,下面这个数据是高考录取分数线,索引是地区、学校,索引是年份、专业,分别对应1级和2级索引,因此共有四个维度。 1、多层级索引创建 多级索引创建分两种情况。...一种是只有纯数据,索引需要新建立;另一种是索引可从数据获取。 因为两种情况建立多级索引方法不同,下面分情况来介绍。 01 新建多级索引 当只有数据没有索引时,我们需要指定索引值,比如下图。...,pro], names=['年份','专业']) # 对df索引索引赋值 df.index = mindex df.columns = mcol display(df) 02 从数据获取多级索引...比如,对索引进行操作,得到了元组形式一二级索引对。...土木')], dtype='object') 然后再通过pythonjoin字符串拼接用法就实现了索引拼接。

78430

Pandas知识点-算术运算函数

两个DataFrame相加,如果DataFrame形状和对应索引都一样,直接将对应位置(按索引索引确定位置)数据相加,得到一个新DataFrame。 2....如果Series索引DataFrame索引相同,会将Series依次DataFrame每一数据进行运算,得到一个新DataFrame。 2....如果Series索引DataFrame索引对应,要使Series按DataFrame运算,可以将axis参数设置成0或'index',这样会将Series依次DataFrame每一数据进行运算...Series索引DataFrame索引索引不完全相同 ?...以上就是Pandas算术运算函数介绍,如果需要本文代码,可以点击关注公众号“Python碎片”,然后在后台回复“pandas07”关键字获取完整代码。

1.9K40

数据科学 IPython 笔记本 7.13 向量化字符串操作

Python 一个优点是它在处理和操作字符串数据方面相对容易。Pandas 构建于此之上,并提供了一套全面的向量化字符串操作,它们成为处理(阅读“清理”部分)实际数据时所需重要部分。...在本节,我们将介绍一些 Pandas 字符串操作,然后使用它们来部分清理从互联网收集,非常混乱食谱数据集。...'Eric Idle', 'Terry Jones', 'Michael Palin']) 相似于 Python 字符串方法方法 几乎所有 Python 内置字符串方法都对应了 Pandas 向量化字符串方法...请注意,这种行为也可以通过 Python 常规索引语法执行 - 例如,df.str.slice(0, 3)相当于df.str[0:3]: monte.str[0:3] ''' 0 Gra 1...虽然概念上很简单,但由于数据异质性,任务变得复杂:例如,从每一中提取干净成分列表并不容易。 所以我们用一些手段:我们先从一系列常见成分开始,然后仅仅搜索它们是否在每个配方成分列表

1.6K20

python数据分析——数据预处理

方法重置索引外,还可以在导入csv文件过程,设置index_col参数重置索引,代码及结果如下: 6.3重命名索引 【例】构建series对象,其数据为[88,60,75],对应索引为[1,2,3...本案例代码及运行结果如下。 七、其他 7.1大小写转换 在数据分析,有时候需要将字符串字符进行大小写转换。在Python可以使用lower()方法,将字符串所有大写字母转换为小写字母。...7.2数据修改替换 按列增加数据 【例】请创建如下所示DataFrame数据,并利用Python对该数据最后增加一数据,要求数据索引为'four' ,数值为[9,10,24]。...按增加数据 【例】对于上例DataFrame数据,增加一数据,数据索引为"d" ,数值为[9,10,11],请使用Python实现。...若要向df数据再增加三数据,索引分别为"e" , “f” , “g”,数值分别为[1,2,3], [4,5,6], [7,8,9],在Python该如何实现?

32610

Pandas速查卡-Python数据科学

它不仅提供了很多方法和函数,使得处理数据更容易;而且它已经优化了运行速度,使用Python内置函数进行数值数据处理相比,这是一个显著优势。..., URL或文件. pd.read_html(url) 解析html URL,字符串或文件,并将表提取到数据框列表 pd.read_clipboard() 获取剪贴板内容并将其传递给read_table...('1900/1/30', periods=df.shape[0]) 添加日期索引 查看/检查数据 df.head(n) 数据框前n df.tail(n) 数据框后n df.shape() 行数和数...df2],axis=1) 将df1添加到df2末尾(行数应该相同) df1.join(df2,on=col1,how='inner') SQL类型df1df2上连接,其中col...() 查找每个最大值 df.min() 查找每最小值 df.median() 查找每中值 df.std() 查找每个标准差 点击“阅读原文”下载速查卡打印版本 END.

9.2K80

Pandas常用命令汇总,建议收藏!

Pandas与其他流行Python库(NumPy、Matplotlib和scikit-learn)快速集成。 这种集成促进了数据操作、分析和可视化工作流程。...由于其直观语法和广泛功能,Pandas已成为数据科学家、分析师和研究人员在 Python处理表格或结构化数据首选工具。...# 用于显示数据前n df.head(n) # 用于显示数据后n df.tail(n) # 用于获取数据行数和df.shape # 用于获取数据索引、数据类型和内存信息 df.info...'] == 'value')] # 通过标签选择特定 df.loc[row_labels, column_labels] # 通过整数索引选择特定 df.iloc[row_indices...# 将df添加到df2末尾 df.append(df2) # 将df添加到df2末尾 pd.concat([df, df2]) # 对A执行外连接 outer_join = pd.merge

36310

将文本字符串转换成数字,看pandas是如何清理数据

都包含文本/字符串,我们将使用不同技术将它们转换为数字。我们使用列表解析创建多个字符串列表,然后将它们放入数据框架。...()方法查看数据框架前5。...记住,数据框架所有值都是字符串数据类型。 图1 df.astype()方法 这可能是最简单方法。我们可以获取字符串然后强制数据类型为数字(即整数或浮点数)。...pd.to_numeric()方法 方法工作方式df.astype()类似,但df.astype()无法识别特殊字符,例如货币符号($)或千位分隔符(点或逗号)。...然而,这种方法在某些需要清理数据情况下非常方便。例如,l8数据是“文本”数字(“1010”)和其他实文本(“asdf”)混合。

6.5K10

Python数据分析——以我硕士毕业论文为例

Python环境配置 环境安装 首先是在Python官网下载你计算机对应Python软件,然后安装。安装过程基本都是傻瓜式,不做过多叙述,一路回车即可。...pandaspd.read_csv()方法,具体参数有: index_col:设置索引为哪一,可以使用序号或者列名称; sep:csv文件分隔符,默认常见用法都可以自动识别,不需要设置;..., sediment_size_df], axis=1) # 将五个数据表按照索引合并 Quote / 参考 具体用法可以参考李庆辉所著《深入浅出Pandas——利用Python进行数据处理分析》...思路其实也很简单,就是使用apply函数分别对每一(也就是每一个样本点)进行处理,获取该行索引然后索引字符进行判断即可: all_df['Period'] = all_df.apply(lambda...简单来说,自变量x因变量y之间存在某种线性关系——y=ax+b,那么我们可以通过多次改变自变量x值,然后观察y值并记录,得到几组对应x_1、x_2、x_3、x_4、x_5、...y_1、y_2

3.1K20

Python for Excel》读书笔记连载12:使用pandas进行数据分析之理解数据

在数据框架所有获取统计信息有时不够好,你需要更细粒度信息,例如,每个类别的均值,这是下面的内容。 分组 再次使用我们示例数据框架df,让我们找出每个大陆平均分数。...为此,首先按洲对行进行分组,然后应用mean方法,该方法将计算每组均值,自动排除所有非数字: 如果包含多个,则生成数据框架将具有层次索引,即我们前面遇到多重索引: 可以使用pandas提供大多数描述性统计信息...例如,下面是如何获得每组最大值和最小值之间差值: df.groupby(["continent"]).agg(lambdax: x.max() - x.min()) 在Excel获取每个组统计信息常用方法是使用透视表...最后,marginsExcel总计(GrandTotal)相对应,即如果不使用margins和margins_name方式,则Total和行将不会显示: 总之,数据透视意味着获取(在本例为...然后,提供id_vars来指示标识符,并提供value_vars来定义“非透视表(unpivot)”。如果希望准备数据,以便将其存储回需要格式数据库,则熔解(melting)非常有用。

4.2K30

python数据分析笔记——数据加载整理

5、文本缺失值处理,缺失数据要么是没有(空字符串),要么是用某个标记值表示,默认情况下,pandas会用一组经常出现标记值进行识别,NA、NULL等。查找出结果以NAN显示。...(import json) 对应json.dumps则将Python对象转换成JSON格式。 导入EXCEL数据 直接使用read_excel(文件名路径)进行获取读取CSV格式文件类似。...通过上面的语句得到结果里面只有a和b对应数据,c和d以及之相关数据被消去,这是因为默认情况下,merge做是‘inner’连接,即sql内连接,取得两个对象交集。...2、索引合并 (1)普通索引合并 Left_index表示将左侧索引引用做其连接键 right_index表示将右侧索引引用做其连接键 上面两个用于DataFrame连接键位于其索引...利用drop_duplicates方法,可以返回一个移除了重复DataFrame. 默认情况下,方法是对所有的进行重复项清理操作,也可以用来指定特定或多进行。

6K80
领券