首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据科学系列:pandas入门详细教程

,仅支持一维和二维数据,但数据内部可以是异构数据,仅要求同列数据类型一致即可 numpy的数据结构仅支持数字索引,而pandas数据结构则同时支持数字索引和标签索引 从功能定位看: numpy虽然也支持字符串等其他数据类型...,当原标签列中不存在相应信息时,填充NAN或者可选的填充值 set_index/reset_index,互为逆操作,前者是已有的一列信息设置标签列,而后者是原标签列归数据,并重置默认数字标签...切片形式访问时按行进行查询,又区分数字切片和标签切片两种情况:当输入数字索引切片时,类似于普通列表切片;当输入标签切片时,执行范围查询(即无需切片首末值存在于标签列中),包含两端标签结果,无匹配行时返回空...类似的效果,二者的区别在于:merge允许连接字段重复,类似一对或者对一连接,此时产生笛卡尔积结果;而concat则不允许重复,仅能一对一拼接。...一般而言,分组的目的是为了后续的聚合统计,所有groupby函数一般不单独使用,而需要级联其他聚合函数共同完成特定需求,例如分组求和、分组均值等。 ?

13.8K20

python数据分析——数据的选择和运算

关键技术: 二维数组索引语法总结如下: [对行进行切片,对列的切片] 对行的切片:可以有start:stop:step 对列的切片:可以有start:stop:step import pandas...可以采用arr<=15得到的布尔值作为索引小于或者等于15的数归。具体程序代码如下所示: 2....axis-{0, 1, },默认值0。这是要连接的轴。 join-{'inner', 'outer'},默认为’outer’。如何处理其他索引。外部表示联合,内部表示交叉。...如果True,则不要使用连接轴索引值。生成的轴标记为0…, n-1。 join_axes-这是索引对象的列表。用于其他(n-1)轴的特定索引,而不是执行内部/外部设置逻辑。...分位数运算 分位数是以概率依据数据分割几个等分,常用的有中位数(即二分位数)、四分位数、百分位数等。分位数是数据分析中常用的一个统计量,经过抽样得到一个样本值。

13810
您找到你想要的搜索结果了吗?
是的
没有找到

快速掌握Series~Series的切片和增删改查

这系列介绍Pandas模块中的Series,本文主要介绍: Series的切片Slice 位置切片 名称切片 Series的增删改查 添加Series的值(增) 删除Series的值(删) 通过索引修改...index数值类型时候的不同,当index数值类型的时候,使用位置索引会抛出keyerror的异常,也就是说当index数值类型的时候,索引使用的是名称索引。...总的来说,当index数值类型的时候: 进行索引的时候,相当于使用的是名称索引; 进行切片的时候,相当于使用的是位置切片; ?...Series的值(改) 其实此时介绍的修改Series的值和在4中介绍的一致,只不过4中介绍的获取到的Series值进行重新的赋值即是修改对应Series的值,因此此处也有三种方式: 通过位置索引修改...value值; 通过名称索引修改value值; 通过点索引修改value值; 此处因为类似,所以只选择一个进行实验: import pandas as pd s = pd.Series([1,2,3,4

4K10

盘一盘 Python 系列 4 - Pandas ()

、和数据表的分组和整合来盘一盘 Pandas,目录如下: 由于篇幅原因,Pandas 系列分两贴,贴讲前三节的内容,下帖讲后三节的内容。...(Hint: 看看两组里冒号 : 在不同位置,再想想 DataFrame 每一行和每一列中数据的特点) 布尔索引 在〖数组计算之 NumPy ()〗提过,布尔索引就是用一个由布尔类型值组成的数组来选择元素的方法...在 Panel 那节已经提到过,多层索引可以「低维数据」升维到「高维数据」,此外,多层索引还可以。。。。...试想,如果不用多层索引的 Series,我们需要用一个 DataFrame 来存储在这样的数据,把 index 设置成 dates,把 colums 设置成 codes。...地区」和「代号」设置第一层 index 和第二层 index。

6.1K52

数据科学 IPython 笔记本 7.8 分层索引

我们的基于元组的索引,本质一个基本的多重索引,而 Pandas 的MultiIndex类型我们提供了我们希望拥有的操作类型。...作为额外维度的MultiIndex 你可能会注意到其他内容:我们可以使用带有索引和列标签的简单DataFrame,来轻松存储相同的数据。事实Pandas 的构建具有这种等价关系。...这可以通过names参数传递给上述任何一个MultiIndex构造器,或者通过在事后设置索引的names属性来实现: pop.index.names = ['state', 'year'] pop...MultiIndex的索引切片 MultiIndex索引切片设计得很直观,如果你索引视为添加的维度,它会有所帮助。...我们将不会在本文中进一步介绍这些面板结构,因为我在大多数情况下发现,对于更高维数据来说,多重索引是更有用且概念更简单的表示。另外,面板数据基本是密集数据表示,而索引基本是稀疏数据表示。

4.2K20

Python NumPy 基础

使用np.zeros(), np.ones(), np.eye(), np.empty() 创建特殊数组,这一点和matlab还是差不多的,不过需要注意的是,如果你要创建一个2*3的全数组,那么就应该这么写...有一点很需要注意,数组切片是原始数组的视图,这就是说数据不会被复制到新的数组切片,对数组切片的任何修改都会直接反应到原数组,或者说数组切片只是一个对原数组内容的引用, 如下图。 ?...这里原始数组是一个2×2×4的三维数组,transpose的参数是元组(1, 0, 2),对应的下标索引为(0, 1, 2),对比可以知道,arr.transpose(1, 0, 2) 的意思就是原数组...如果想要得到对某个轴向平均,可以加上axis参数,如np.mean(arr, 1) 就是对行平均。其他函数类似。 ? 基本数组统计方法 ? ?...===== 2016-06-29更新 ===== 注意,numpy.std() 标准差的时候默认是除以 n 的,即是有偏的,而pandas.std() 默认是除以n-1 的,即是无偏的,如果想和numpy.std

1.3K10

Python-NumPy基础

使用np.zeros(), np.ones(), np.eye(), np.empty() 创建特殊数组,这一点和matlab还是差不多的,不过需要注意的是,如果你要创建一个2*3的全数组,那么就应该这么写...有一点很需要注意,数组切片是原始数组的视图,这就是说数据不会被复制到新的数组切片,对数组切片的任何修改都会直接反应到原数组,或者说数组切片只是一个对原数组内容的引用, 如下图。 ?...这里原始数组是一个2×2×4的三维数组,transpose的参数是元组(1, 0, 2),对应的下标索引为(0, 1, 2),对比可以知道,arr.transpose(1, 0, 2) 的意思就是原数组...如果想要得到对某个轴向平均,可以加上axis参数,如np.mean(arr, 1) 就是对行平均。其他函数类似。 ? 基本数组统计方法 ? ?...===== 2016-06-29更新 ===== 注意,numpy.std() 标准差的时候默认是除以 n 的,即是有偏的,而pandas.std() 默认是除以n-1 的,即是无偏的,如果想和numpy.std

1.7K100

懂Excel轻松入门Python数据分析包pandas(二十六):横向操作

后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 在 Excel 处理表格非常自由方便,他不需要你把数据组织得非常规范。...中,同样非常简单,只需要一个方法就可以得到结果: - 行1:加载数据,注意参数 index_col=0 ,我们把 选手 列作为行索引,否则下面平均时,就需要把 选手 列排除在外 - 行2:现在 df...- 但是,默认情况下,mean 方法中的参数 axis 0 ,意思是"对每列平均",其结果是一行。...- 行4:对行排序 - 行5:使用 Series.iloc[] 做切片选择,从行中第2个数(索引是1)开始,直到倒数第2个(索引是-1)之间的数 - 行6:平均 - 行8:调用 DataFrame.apply...axis 参数设置会有点难以理解, 我的 pandas 专栏第5节有关于轴的理解,可以去参考一下。

67330

懂Excel轻松入门Python数据分析包pandas(二十六):横向操作

后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 在 Excel 处理表格非常自由方便,他不需要你把数据组织得非常规范。...中,同样非常简单,只需要一个方法就可以得到结果: - 行1:加载数据,注意参数 index_col=0 ,我们把 选手 列作为行索引,否则下面平均时,就需要把 选手 列排除在外 - 行2:现在 df...- 但是,默认情况下,mean 方法中的参数 axis 0 ,意思是"对每列平均",其结果是一行。...- 行4:对行排序 - 行5:使用 Series.iloc[] 做切片选择,从行中第2个数(索引是1)开始,直到倒数第2个(索引是-1)之间的数 - 行6:平均 - 行8:调用 DataFrame.apply...axis 参数设置会有点难以理解, 我的 pandas 专栏第5节有关于轴的理解,可以去参考一下。

57750

数据处理利器pandas入门

:由于数据中包含了时间信息列(date和hour),为了方便操作,我们可以使用以下命令时间列设置索引。...此外,也可以对单个站点分时刻计算,比如: data['1001A'].resample('6h').mean() # 针对1001A站点,进行每6小时平均 .resample 是重采样方法,其返回一个对象...索引切片: 可以理解成 idx MultiIndex 视为一个新的 DataFrame,然后将上层索引视为行,下层索引视为列,以此来进行数据的查询。...上述操作返回的列仍然是 MultiIndex,因为此时只有一个站点了,我们可以使用 .xs 方法列从MultiIndex转换为Index。...除了箱线图之外,Pandas还可以绘制折线图,条形图,饼图,密度分布等。这在数据分析时是比较方便的,但在图形美化或其他图形绘制还需要借助其他工具,比如统计绘图Seaborn更胜一筹。

3.6K30

数据分析 | Numpy进阶

回顾: Python数据分析之旅: 前戏 数据分析 | Numpy初窥 索引切片 切片索引Numpy中选取数据子集或者单个元素的方式有很多,一维数组和Pyhon列表的功能差不多,看下图: ?...数组切片与列表最重要的区别在于:数组切片是原始数组的视图,这就是说数据不会被复制,视图上的任何修改都有会直接反映到源数据,也就是说视图上的任何修改都有会直接改动到数据源,看下图运行效果: ?...多维数组 注意:直接给元素赋值,返回的数组都有是视图,是直接映射到数据源,如有改变也会影响到数据源 ? ? ? 说明:布尔索引与花式索引不常用,不作讲解! 通用函数运算 ?...运算和数据处理 Numpy数组使你可以许多种数据处理任务表述简洁的数据表达式,否则需要编写循环,用数组表达式代替循环的做法通常称为失量化.失量化的运算比普通的Python运算更快. ?...线性代数 线性代数是任何数组库的重要组成,Numpy提供了一个用于矩阵乘法的dot函数 ? ? numpy.linalg中一组标准的矩阵分解运算,如逆和行列式之类的东西.

1.7K10

Python-Numpy数组计算

它是pandas其他各种工具的基础。...索引,只索取True的部分,去掉False部分 通过布尔型索引选取数组中的数据,总是创建数据的副本。...        a[2:10] = 1         多维数组:a[1:2, 3:4]    a[:,3:5]        a[:,1] 4、强调:与列表不同,数组切片时并不会自动复制,在切片数组的修改会影响原数组...答案:a[a>5]   原理:     a>5会对a中的每一个元素进行判断,返回一个布尔数组     布尔型索引:将同样大小的布尔数组传进索引,会返回一个由所有True对应位置的元素的数组  问题2:给一个数组...argmin 最小值索引argmax 最大值索引 十一、NumPy:随机数生成  随机数生成函数在np.random子包内 常用函数    rand 给定形状产生随机数组(0到1之间的数)randint

2.4K40

超全的pandas数据分析常用函数总结:下篇

整篇总结,在详尽且通俗易懂的基础,我力求使其有很强的条理性和逻辑性,所以制作了思维导图,对于每一个值得深究的函数用法,我也会附上官方链接,方便大家继续深入学习。...5.2 设置索引列 data.set_index("id") # 设置id索引列 输出结果: ?...data.reset_index(drop=True) # 重置索引列,并且避免索引添加为列 输出结果: ?...6.2 区域索引 6.2.1 用loc取连续的多行 提取索引2到索引4的所有行,即提取第3行到第5行,注意:此时切片的开始和结束都包括在内。 data.loc[2:4] 输出结果: ?...满足origin是China或者money小于35这两个条件之中任意一个条件的数据,返回其id、date、money、product、department、origin值。

3.9K20

超全的pandas数据分析常用函数总结:下篇

整篇总结,在详尽且通俗易懂的基础,我力求使其有很强的条理性和逻辑性,所以制作了思维导图,对于每一个值得深究的函数用法,我也会附上官方链接,方便大家继续深入学习。...5.2 设置索引列 data.set_index("id") # 设置id索引列 输出结果: ?...data.reset_index(drop=True) # 重置索引列,并且避免索引添加为列 输出结果: ?...6.2 区域索引 6.2.1 用loc取连续的多行 提取索引2到索引4的所有行,即提取第3行到第5行,注意:此时切片的开始和结束都包括在内。 data.loc[2:4] 输出结果: ?...满足origin是China或者money小于35这两个条件之中任意一个条件的数据,返回其id、date、money、product、department、origin值。

4.9K20

Python数据分析笔记——Numpy、Pandas

Python数据分析——Numpy、Pandas库 总第48篇 ▼ 利用Python进行数据分析中有两个重要的库是Numpy和Pandas,本章围绕这两个库进行展开介绍。...如果赋值的是一个Series,则对应的索引位置将被赋值,其他位置的值被赋予空值。...Pandas基本功能 1、重新索引 Pandas对象的一个方法就是重新索引(reindex),其作用是创建一个新的索引pandas对象按这个新索引进行排序。对于不存在的索引值,引入缺失值。...obj.rank() (2)DataFrame数据结构的排序和排名 按索引值进行排列,一列或列中的值进行排序,通过by列名传递给sort_index. 5、缺失数据处理 (1)滤出缺失数据 使用data.dropna...8、值计数 用于计算一个Series中各值出现的次数。 9、层次化索引 层次化索引pandas一个重要功能,它的作用是使你在一个拥有两个或多个索引级别。

6.4K80

一文介绍Pandas中的9种数据访问方式

以下面经典的titanic数据集例,可以从两个方面特性来认识DataFrame: ? DataFrame是一个行列均由多个Series组成的二维数据表框,其中Series可看做是一个一维向量。...而每个dict内部则是一个以各行索引为key的子dict。..."访问 切片形式访问时按行进行查询,又区分数字切片和标签切片两种情况:当输入数字索引切片时,类似于普通列表切片;当输入标签切片时,执行范围查询(即无需切片首末值存在于标签列中),包含两端标签结果,无匹配行时返回空...,但要求标签切片类型与索引类型一致。...这里仍然是执行条件查询,但与直观不大相符的是这里会返回全部结果,只是将不满足匹配条件的结果赋值NaN或其他指定值,可用于筛选或屏蔽值 ? 6. query,提到query,还得多说两句。

3.8K30

【Mark一下】46个常用 Pandas 方法速查表

数据框与R中的DataFrame格式类似,都是一个二维数组。Series则是一个一维数组,类似于列表。数据框是Pandas中最常用的数据组织方式和对象。...查看数据框的索引和列的类型、费控设置和内存用量信息。...例如可以从dtype的返回值中仅获取类型bool的列。 3 数据切片和切块 数据切片和切块是使用不同的列或索引切分数据,实现从数据中获取特定子集的方式。...常见的数据切片和切换的方式如表3所示: 表3 Pandas常用数据切分方法 方法用途示例示例说明[['列名1', '列名2',…]]按列名选择单列或列In: print(data2[['col1','...,默认计算方式均值 8 高级函数使用 Pandas能直接实现数据框级别高级函数的应用,而不用写循环遍历每条记录甚至每个值后做计算,这种方式能极大提升计算效率,具体如表8所示: 表8 Pandas

4.8K20
领券