首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据科学系列:pandas入门详细教程

pandaspython+data+analysis组合缩写,是python基于numpy和matplotlib第三方数据分析库,后两者共同构成了python数据分析基础工具包,享有数分三剑客之名...、数据分析和数据可视化全套流程操作 pandas主要面向数据处理分析,主要具有以下功能特色: 按索引匹配广播机制,这里广播机制numpy广播机制还有很大不同 便捷数据读写操作,相比于numpy...或字典(用于重命名标签和列标签) reindex,接收一个新序列已有标签列匹配,当原标签列不存在相应信息时,填充NAN或者可选填充值 set_index/reset_index,互为逆操作,...自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、列或多行:单或多值(多个列名组成列表)访问时按列进行查询,单访问不存在列名歧义时还可直接用属性符号" ....切片形式访问时按行进行查询,又区分数字切片和标签切片两种情况:当输入数字索引切片时,类似于普通列表切片;当输入标签切片时,执行范围查询(即无需切片首末存在于标签列),包含两端标签结果,无匹配行时返回为空

13.8K20

手把手教你做一个“渣”数据师,用Python代替老情人Excel

请按照以下链接下载数据,并将其放在存储Python文件同一文件夹。...5、略过和列 默认read_excel参数假定第一列表名称,会自动合并为DataFrame列标签。...2、查看列 ? 3、查看特定 这里使用方法是loc函数,其中我们可以指定以冒号分隔起始行和结束。注意,索引从0开始而不是1。 ? 4、同时分割和列 ? 5、在某一列筛选 ?...7、用列表筛选多种数值 ? 8、筛选不在列表或Excel ? 9、用多个条件筛选列数据 输入应为列一个表,此方法相当于excel高级过滤器功能: ? 10、根据数字条件过滤 ?...由于Pandas没有“Vlookup”函数,因此Merge用SQL相同备用函数。

8.3K30
您找到你想要的搜索结果了吗?
是的
没有找到

Python数据分析-pandas库入门

5 pandas 选择数据 6 总结 7 参考资料 pandas 库概述 pandas 提供了快速便捷处理结构化数据大量数据结构和函数。...NumPy 数组相比,你可以通过索引方式选取 Series 单个或一组,代码示例: obj2[['a', 'b', 'c']] obj2['a']=2 obj2[['a', 'b', 'c'...DataFrame 既有索引也有列索引,它可以被看做由 Series 组成字典(共用同一个索引)。DataFrame 数据是以一个或多个二维块存放(而不是列表、字典或别的一维数据结构)。...如果赋值是一个 Series,就会精确匹配 DataFrame 索引所有的空位都将被填上缺失,代码示例: val = pd.Series([-1.2, -1.5, -1.7], index=['... python 集合不同,pandas Index 可以包含重复标签,代码示例: dup_labels = pd.Index(['foo','foo','bar','alice']) dup_labels

3.7K20

【Mark一下】46个常用 Pandas 方法速查表

数据框RDataFrame格式类似,都是一个二维数组。Series则是一个一维数组,类似于列表。数据框是Pandas中最常用数据组织方式和对象。...从最后一开始取后2index查看索引In: print(data2.index) Out: RangeIndex(start=0, stop=3, step=1)结果是一个类列表对象,可用列表方法操作对象...[0:2)之间,列名为'col1'和'col2'记录,索引不包含2 提示 如果选择特定索引数据,直接写索引即可。...Out: col1 col2 col3 0 2 a True 1 1 b True选择col3为True所有记录列单条件以所有的列为基础选择符合条件数据...col2为维度,对col1求和,col3求均值 作者:宋天龙 摘自:《Python数据分析数据化运营(第2版)》 来源:Python爱好者社区

4.8K20

Python3分析CSV数据

2.2 筛选特定 在输入文件筛选出特定三种方法: 满足某个条件 属于某个集合 匹配正则表达式 从输入文件筛选出特定通用代码结构: for row in filereader...pandas提供loc函数,可以同时选择特定列。.../usr/bin/env python3 import csv import glob # glob模块可以定位匹配于某个特定模式所有路径名。...最后,对于第三个,使用内置len 函数计算出列表变量header 数量,这个列表变量包含了每个输入文件列标题列表。我们使用这个作为每个输入文件列数。...基本过程就是将每个输入文件读取到pandas数据框,将所有数据框追加到一个数据框列表,然后使用concat 函数将所有数据框连接成一个数据框。

6.6K10

干货:手把手教你用Python读写CSV、JSON、Excel及解析HTML

索引可以很方便地辨认、校准、访问DataFrame数据。索引可以是一列连续数字(就像Excel行号)或日期;你还可以设定索引。...这是个嵌套、类似字典结构,以逗号为分隔符,存储键值对;键之间以冒号分隔。JSON格式独立于具体平台(就像XML,我们将在 用Python读写XML文件介绍),便于平台之间共享数据。...拿最新XLSX格式来说,Excel可以在单个工作表存储一百及一万六千列。 1. 准备 要实践这个技法,你要先装好pandas模块。此外没有要求了。 2....更多 读取Excel文件,除了用pandasread_excel(...)方法,你也可以选择其它Python模块。pandas使用xlrd读取数据并转成DataFrame。...进而使用.rows迭代器,遍历工作表每一,将所有单元格数据加入data列表: print ( [item[labels.index('price')] for item in data[0:10

8.3K20

懂Excel轻松入门Python数据分析包pandas(十八):pandas vlookup

此系列文章收录在公众号:数据大宇宙 > 数据处理 >E-pd > 经常听别人说 Python 在数据领域有厉害,结果学了很长时间,连数据处理都麻烦得要死。...今天就来看看 pandas 任何实现 Excel 列批量 vlookup 效果 案例1:简单匹配 一天,你收到一份数据源表如下: - 每个人每个城市销售额数据 接着,你需要把下图表格从数据源表匹配过来...pandas 怎么实现: - 6、7,由于现在需要姓名匹配,我们把2份数据姓名列设置为索引 - 9,简单调用 update 方法,表示 df_tg 按照 df_src 更新 由于 pandas...> 注意:本文所有pandas 更新方法,都是索引更新,而非遍历更新,因此速度非常快。...pandas 没有那么多花俏东西,还是那段代码: - 6和7,设置 姓名 城市 作为索引即可,其他代码不变 这里案例只是索引为多层索引,实际上即使是列标题为多层复合,也能用同样方式匹配

2.7K20

Python玩数据入门必备系列(7):最会匹配集合——字典

> 最近有许多小伙伴问我要入门 Python 资料,还有小伙伴完全没有入门 Python 就直接购买了我 pandas 专栏。...这样问题,他也能快速给你答案: - 14:'张三' in mapping ,判断某个是否在字典 key 列 - 在 Python , xx in 集合 ,是一个通用表达某个是否在一个集合语义...由此你可以推断,此语法同样可以用在列表和元组 但是,如果需要根据信息定位一数据,似乎字典做不到?...如下是各个班成绩: - 我希望给出一个班别,快速得到该班所有学生记录(多行) 代码如下: - 14:判断班级是否在字典,如果存在,表明此时已经执行过 17 代码了。...由于字典每一数据都存在 key value,因此使用 {key:value} 表示,用冒号把 key value 分隔开来 - 字典之间用逗号分隔。

89820

Pandas 秘籍:1~5

这些参数每一个都可以设置为字典,该字典将旧标签映射到它们。 更多 重命名标签和列标签有多种方法。 可以直接将索引和列属性重新分配给 Python 列表。...当列表具有和列标签相同数量元素时,此分配有效。 以下代码在每个索引对象上使用tolist方法来创建 Python 标签列表。...序列和数据帧索引器允许按整数位置(如 Python 列表)和标签(如 Python 字典)进行选择。.iloc索引器仅按整数位置选择,并且 Python 列表类似。....同时选择数据帧和列 直接使用索引运算符是从数据帧中选择一列或正确方法。 但是,它不允许您同时选择和列。...逗号左侧选择始终根据索引选择。 逗号右边选择始终根据列索引选择列。 不必同时选择和列。 步骤 2 显示了如何选择所有和列子集。 冒号表示一个切片对象,该对象仅返回该维度所有

37.3K10

懂Excel轻松入门Python数据分析包pandas(十八):pandas vlookup

> 经常听别人说 Python 在数据领域有厉害,结果学了很长时间,连数据处理都麻烦得要死。...今天就来看看 pandas 任何实现 Excel 列批量 vlookup 效果 案例1:简单匹配 一天,你收到一份数据源表如下: - 每个人每个城市销售额数据 接着,你需要把下图表格从数据源表匹配过来...pandas 怎么实现: - 6、7,由于现在需要姓名匹配,我们把2份数据姓名列设置为索引 - 9,简单调用 update 方法,表示 df_tg 按照 df_src 更新 由于 pandas...> 注意:本文所有pandas 更新方法,都是索引更新,而非遍历更新,因此速度非常快。...pandas 没有那么多花俏东西,还是那段代码: - 6和7,设置 姓名 城市 作为索引即可,其他代码不变 这里案例只是索引为多层索引,实际上即使是列标题为多层复合,也能用同样方式匹配

1.8K40

Python for Excel》读书笔记连载11:使用pandas进行数据分析之组合数据

说明:近期有点忙,这本书更新慢了一些,深感抱歉!特将这部分免费呈现给有兴趣朋友。前面的内容链接如下: 1.为什么为Excel选择Python? 2.为什么为Excel选择Python?...左联接(leftjoin)获取左数据框架df1所有,并在索引匹配右数据框架df2,在df2没有匹配地方,pandas将填充NaN。左联接对应于ExcelVLOOKUP情况。...右联接(rightjoin)获取右表df2所有,并将它们df1索引相同行相匹配。...最后,外联接(outerjoin)是完全外联接(fullouter join)缩写,它从两个数据框架获取索引并集,并尽可能匹配。表5-5相当于图5-3文本形式。...merge接受on参数以提供一个或多个列作为联接条件(joincondition):这些列必须存在于两个数据框架,用于匹配: 由于join和merge接受相当可选参数以适应更复杂场景,因此你可以查看官方文档以了解关于它们更多信息

2.5K20

Pandas 学习手册中文第二版:1~5

下面显示了结果结果索引: 可以使用.loc属性通过索引标签显式访问。 以下代码通过索引标签检索一: 可以使用整数位置列表选择DataFrame对象特定。....all()方法可以确定Series所有是否给定表达式匹配。...-2e/img/00137.jpeg)] 分配给.index属性列表元素数必须行数匹配,否则将引发异常。...使用布尔选择选择 可以使用布尔选择选择。 当应用于数据帧时,布尔选择可以利用数据。...这是一个布尔选择类似的过程,在该过程,我们选择了除要删除以外所有。 假设我们要从sp500除去除前三个记录以外所有记录。 执行此任务片是[:3],它返回前三

8.1K10

Python数据分析笔记——Numpy、Pandas

Python数据分析——Numpy、Pandas库 总第48篇 ▼ 利用Python进行数据分析中有两个重要库是Numpy和Pandas,本章将围绕这两个库进行展开介绍。...一维数组索引 多维数组索引 (2)切片索引 一维数组切片索引Python列表切片索引一样) 多维数组切片索引 (3)花式索引 元素索引和切片索引都是仅局限于连续区域,而花式索引可以选取特定区域...DataFrame既有索引也有列索引,其中数据是以一个或多个二维块存放,而不是列表、字典或别的一维数据结构。...也可以给某一列赋值一个列表或数组,其长度必须跟DataFrame长度相匹配。如果赋值是一个Series,则对应索引位置将被赋值,其他位置被赋予空。...obj.rank() (2)DataFrame数据结构排序和排名 按索引进行排列,一列或进行排序,通过by将列名传递给sort_index. 5、缺失数据处理 (1)滤出缺失数据 使用data.dropna

6.4K80

Pandas图鉴(三):DataFrames

还有两个创建DataFrame选项(不太有用): 从一个dict列表(每个dict代表一个,它键是列名,它是相应单元格)。...如果你 "即时" 添加流媒体数据,则你最好选择是使用字典或列表,因为 Python列表末尾透明地预分配了空间,所以追加速度很快。...DataFrame有两种可供选择索引模式:loc用于通过标签进行索引,iloc用于通过位置索引进行索引。 在Pandas,引用多行/列是一种复制,而不是一种视图。...所有的算术运算都是根据和列标签来排列: 在DataFrames和Series混合操作,Series行为(和广播)就像一个-向量,并相应地被对齐: 可能是为了列表和一维NumPy向量保持一致...就像1:1关系一样,要在Pandas连接一对1:n相关表,你有两个选择

36220

图解pandas模块21个常用操作

Pandas 目标是成为 Python 数据分析实践实战必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言开源数据分析工具。...3、从字典创建一个系列 字典(dict)可以作为输入传递,如果没有指定索引,则按排序顺序取得字典键以构造索引。如果传递了索引索引标签对应数据将被拉出。 ?...7、从列表创建DataFrame 从列表很方便创建一个DataFrame,默认行列索引从0开始。 ?...9、列选择 在刚学Pandas时,选择和列选择非常容易混淆,在这里进行一下整理常用选择。 ? 10、选择 整理多种选择方法,总有一种适合你。 ? ? ?...14、聚合函数 data.function(axis=0) 按列计算 data.function(axis=1) 按计算 ? 15、分类汇总 可以按照指定列进行指定多个运算进行汇总。 ?

8.5K12

Pandas 25 式

操控缺失 把字符串分割为列 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择列 重塑多重索引 Series 创建透视表...最直接方式是把 ::-1 传递给 loc 访问器, Python 里反转列表切片法一样。 ?...使用 Python 内置 glob 更方便。 ? 把文件名规则传递给 glob(),这里包括通配符,即可返回包含所有合规文件名列表。...用 dropna() 删除列里所有缺失。 ? 只想删除列缺失高于 10% 缺失,可以设置 dropna() 里阈值,即 threshold. ? 16....要解决这个问题得用 transform() 方法,这个方法执行同样计算,但返回原始数据行数一样输出结果,本例为 4622 。 ?

8.4K00

Python3分析Excel数据

满足某个条件 用pandas筛选出Sale Amount大于$1400.00。...: 使用列索引 使用列标题 使用列索引pandas设置数据框,在方括号列出要保留索引或名称(字符串)。...设置数据框和iloc函数,同时选择特定特定列。如果使用iloc函数来选择列,那么就需要在列索引前面加上一个冒号和一个逗号,表示为这些特定列保留所有。...在一组工作表筛选特定pandas在工作簿中选择一组工作表,在read_excel函数中将工作表索引或名称设置成一个列表。...创建索引列表my_ sheets,在read_excel函数设定sheetname等于my_sheets。想从第一个和第二个工作表筛选出销售额大于$1900.00

3.3K20

Python实现ExcelVLOOKUP、HLOOKUP、XLOOKUP函数功能

标签:PythonExcel,pandas ExcelLOOKUP公式可能是最常用公式之一,因此这里将在Python实现Excel查找系列公式功能。...return_array.loc[]返回一个带有基于上述布尔索引pandas系列,只返回True。...pandas系列一个优点是它.empty属性,告诉我们该系列是否包含或空,如果match_value为空,那么我们知道找不到匹配项,然后我们可以通知用户在数据找不到查找。...最后,因为我们只想保留第一个(如果有多个条目),所以我们通过从返回列表中指定[0]来选择第一个元素。 让我们测试一下这个函数,似乎工作正常!...让我们看看它语法,下面是一个简化参数列表,如果你想查看完整参数列表,可查阅pandas官方文档。

6.7K10

StataPython等效操作调用

没有 Stata 数据标签 ( value label ) 1.7 数据合并与匹配 df_joint = df1.append(df2) Pandas DataFrames 匹配不需要指定“对一...2, 3) 保留 DataFrame "right" 所有的观测 how='inner' keep(3) 保留匹配观测 how='outer' keep(1 2 3) 保留所有观测 1.8...但是可以使用 DataFrame 索引等效列)来完成大多数(但不是全部)相同任务。...在 PythonPandas ,DataFrame 索引可以是任何(尽管您也可以通过行号引用;参见 .loc iloc )。...Stata Python 交互 Stata16.0 提供了 Python 模块,能够在 Stata 调用 Python ,交互功能拓展对 Stata 和 Python 都是好消息,因为给双方都提供了一种便利选择

9.8K51
领券