首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 秘籍:1~5

列和索引用于特定目的,即为数据列和行提供标签。 这些标签允许直接轻松地访问不同数据子集。 当多个序列或数据组合在一起索引将在进行任何计算之前首先对齐。 列和索引统称为轴。...Pandas 严重依赖 NumPy 库,该库允许进行量化计算,也可以对整个数据序列进行操作而无需显式编写for循环。 每个操作都返回一个具有相同索引序列,但其值已被运算符修改。...明智地排序列名称 最初将数据集导入为数据之后要考虑首要任务之一是分析列顺序。 这个基本任务经常被忽略,但是可以在分析进行中产生很大不同。 计算机没有优先选择列顺序计算也不受影响。...例如,当在describe数据方法中使用include参数,可以传递形式对象 NumPy / pandas 对象或其等效字符串表示形式列表。...更多 可以将列名列表传递给nlargest/nsmallest方法columns参数。 仅当在列表第一列中存在重复值共享第 n 个排名位情况,这才对打破关系有用。

37.2K10

Pandas 秘籍:6~11

当以某种方式组合多个序列或数据,在进行任何计算之前,数据每个维度会首先自动在每个轴上对齐。...如果max_dept_sal在其索引重复了任何部门,则该操作将失败。 例如,让我们看看当我们在具有重复索引等式右侧使用数据时会发生什么。...在对 Pandas 进行分组,通常使用具有离散重复列。...如前面的秘籍“将多个变量存储为列值进行整理”秘籍所述,当在index参数中使用多个列,我们必须使用pivot_table来旋转数据。 旋转后,Group和Year变量卡在索引中。...如您所见,当在索引上对齐多个数据,concat通常比合并好得多。 在第 9 步中,我们切换档位以关注merge具有优势情况。merge方法是唯一能够按列值对齐调用和传递数据方法。

33.8K10
您找到你想要的搜索结果了吗?
是的
没有找到

NumPy 和 Pandas 数据分析实用指南:1~6 全

现在,顺序混合了。 考虑我们要求索引。 会发生什么? 一方面,我们可以说最后一个命令将基于索引进行选择。 因此它将选择元素 2 和 4; 他们之间什么都没有。...数据算术 数据之间算术与序列或 NumPy 数组算术具有某些相似之处。 如您所料,两个数据或一个数据与一个缩放器之间算术工作; 但是数据和序列之间算术运算需要谨慎。...六、排序,索引和绘图 现在让我们简要介绍一下使用 pandas 方法对数据进行排序。 在本章中,我们将研究排序和排名。 排序是将数据按各种顺序排列,而排名则是查找数据如果经过排序将位于哪个顺序中。...让我们首先看一下索引排序。 我们可以使用sort_index方法重新排列数据行,以使行索引顺序排列。 我们还可以通过将sort_index访问参数设置为1来对列进行排序。...当在数据上调用时,每一列都将单独排名,结果将是一个包含等级数据。 现在,让我们看看这个排名。

5.3K30

Pandas 学习手册中文第二版:1~5

数据分析 数据分析是从数据创建含义过程。 具有量化含义数据通常称为信息。 数据分析是通过创建数据模型和数学模型来从数据中创建信息过程。 它经常与数据操作重叠,并且两者之间区别并不总是很清楚。...变量 在对 Pandas 进行数据建模,我们将对一个或多个变量进行建模,并寻找值之间或多个变量之间统计意义。 变量定义不是编程语言中变量,而是统计变量之一。...例如,以下内容返回温度差平均值: Pandas 数据 Pandas Series只能与每个索引标签关联一个值。 要使每个索引标签具有多个值,我们可以使用一个数据。...如果需要一个带有附加列数据保持原来不变),则可以使用pd.concat()函数。 此函数创建一个新数据,其中所有指定DataFrame对象均按规范顺序连接在一起。...当索引意义不大并且您只希望将具有顺序递增整数级联数据用作索引,这很有用: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lFEXN2Dm-1681365384146

8.1K10

15.计算机科学导论之数据压缩学习笔记

今天人们希望在更短时间内下载更多数据(如看哔哩哔哩视频、抖音、文件下载等),同样,人们也希望能在更小空间存储更多数据,即当在同一传输速率下,文件越小则下载越快,所以为了文件能传输更快更小,我们需要对其数据进行压缩传输...压缩,除了最后一个字母之外,其他所有字符被字典中索引代替。 最后,将索引和最后一个字母插入压缩字符串,比如ABBB,在字典中找到ABB和它索引4,得到压缩字符串就是4B。...离散余弦变换(Discrete Cosine Transform,DCT)是一类函数变换,可以将一个信号(或图像)转换为其傅里叶变换(或频域)一种类似形式,即此种变换改变了64个值以使相邻像素之间关系得以保持...它是一种非常高效图像压缩技术,具有良好信号表示性能。...发送顺序为:I,P,B,B,P,B,B,I。 WeiyiGeek.MPEG MPEG 编码过程 分为三个主要步骤:图像或视频量化、分块和编码。

95020

Pandas 学习手册中文第二版:6~10

具体来说,我们将检查: 对序列或数据创建和使用索引索引选择值方法 在索引之间移动数据 重新索引 Pandas 对象 对序列或数据创建和使用索引 索引可以显式创建,也可以让 Pandas 隐式创建...均值,中位数和众数) 计算方差,标准差,协方差和相关性 执行数据离散化和量化 计算排名 计算序列中每个样本百分比变化 执行滚动窗口操作 执行数据随机抽样 配置 Pandas 我们将使用标准 Pandas...数据处于错误规范化级别 数据重复 这是一个完整列表,我您保证它不完整。...数据形状已更改,现在有其他行或列,在重塑无法确定 可能还有更多原因,但是总的来说,这些情况的确会发生,作为 Pandas 用户,您将需要解决这些情况才能进行有效数据分析 让我们开始研究如何通过创建具有一些缺失数据数据来处理缺失数据...请注意,删除重复项时会保留索引重复记录可能具有不同索引标签(在计算重复不考虑标签)。 因此,保留行会影响结果DataFrame对象中标签集。 默认操作是保留重复第一行。

2.2K20

50个Pandas奇淫技巧:向量化字符串,玩转文本处理

一、向量化操作概述 对于文本数据处理(清洗),是现实工作中数据不可或缺功能,在这一节中,我们将介绍Pandas字符串操作。...向量化操作使我们不必担心数组长度和维度,只需要关系操作功能,尤为强大是,除了支持常用字符串操作方法,还集成了正则表达式大部分功能,这使得pandas在处理字符串列具有非常大魔力。...除了上面介绍Pandas字符串正常操作和正则表达式外,Pandasstr属性还提供了其他一些方法,这些方法非常有用,在进行特征提取或者数据清洗,非常高效,具体如下: 方法 说明 get()...获取元素索引位置上值,索引从0开始 slice() 对元素进行切片取值 slice_replace() 对元素进行切片替换 cat() 连接字符串 repeat() 重复元素 normalize()...要禁用对齐,请在 others 中任何系列/索引/数据上使用 .values。

5.9K60

python数据科学系列:pandas入门详细教程

,但仍然主要是用于数值计算,尤其是内部集成了大量矩阵计算模块,例如基本矩阵运算、线性代数、fft、生成随机数等,支持灵活广播机制 pandas主要用于数据处理与分析,支持包括数据读写、数值计算数据处理...、数据分析和数据可视化全套流程操作 pandas主要面向数据处理与分析,主要具有以下功能特色: 按索引匹配广播机制,这里广播机制与numpy广播机制还有很大不同 便捷数据读写操作,相比于numpy...其中,由于pandas允许数据类型是异构,各列之间可能含有多种不同数据类型,所以dtype取其复数形式dtypes。...与[ ]访问类似,loc按标签访问也是执行范围查询,包含两端结果 at/iat,loc和iloc特殊形式,不支持切片访问,仅可以用单个标签值或单个索引进行访问,一般返回标量结果,除非标签值存在重复...由于pandas是带标签数组,所以在广播过程中会自动按标签匹配进行广播,而非类似numpy那种纯粹按顺序进行广播。

13.8K20

Python 数据分析(PYDA)第三版(二)

还可以在 pandas 中找到与排序相关其他数据操作(例如,按一个或多个列对数据进行排序)。 唯一值和其他集合逻辑 NumPy 具有一些用于一维 ndarrays 基本集合操作。...fill_value 重新索引引入缺失数据要使用替代值。当您希望缺失标签在结果中具有空值,请使用fill_value="missing"(默认行为)。...,因此还有一个iloc运算符,它仅使用整数进行索引,以便在索引包含整数或不包含整数始终保持一致: In [139]: obj1.iloc[[0, 1, 2]] Out[139]: 2 1 0...算术和数据对齐 pandas 可以使处理具有不同索引对象变得更简单。例如,当您添加对象,如果任何索引对不相同,结果中相应索引将是索引并集。...类似于method="min",但等级总是在组之间增加 1,而不是在组中相等元素数量之间增加 具有重复标签索引 到目前为止,我们看过几乎所有示例都具有唯一轴标签(索引值)。

20500

Python 数据处理:Pandas使用

和 Series 之间运算 2.9 函数应用和映射 2.10 排序和排名 2.11 带有重复标签索引 3.汇总和计算描述统计 3.1 相关系数与协方差 3.2 唯一值、值计数以及成员资格 ---...i处,并得到新Index is_monotonic 当各元素均大于等于前一个元素,返回True is_unique 当Index没有重复,返回True unique 计算Ilndex中唯一值数组...Index会被完全使用,就像没有任何复制一样 method 插值(填充)方式 fill_value 在重新索引过程中,需要引入缺失值使用替代值 limit 前或后向填充最大填充量 tolerance...---- 2.6 算术运算和数据对齐 Pandas 最重要一个功能是,它可以对不同索引对象进行算术运算。在将对象相加,如果存在不同索引对,则结果索引就是该索引并集。...先来看一个具有启发性例子,计算一个二维数组与其某行之间差: import pandas as pd arr = np.arange(12.).reshape((3,4)) print(arr)

22.7K10

精通 Pandas:1~5

name属性在将序列对象组合到数据结构等任务中很有用。 使用标量值 对于标量数据,必须提供索引。 将为尽可能多索引重复该值。...当我们希望重新对齐数据或以其他方式选择数据,有时需要对索引进行操作。 有多种操作: set_index-允许在现有数据上创建索引并返回索引数据。...当我们按多个键分组,得到分组名称是一个元组,如后面的命令所示。 首先,我们重置索引以获得原始数据并定义一个多重索引以便能够按多个键进行分组。...如果我们数据具有多重索引,则可以使用groupby按层次结构不同级别分组并计算一些有趣统计数据。...使用melt函数 melt函数使我们能够通过将数据某些列指定为 ID 列来转换它。 这样可以确保在进行任何重要转换后,它们始终保持为列。

18.7K10

Pandas图鉴(三):DataFrames

从这个简化案例中你可以看到(见上面的 "full outer join 全外链"),与关系型数据库相比,Pandas保持顺序方面是相当灵活。...如果要merge列不在索引中,而且你可以丢弃在两个表索引内容,那么就使用merge,例如: merge()默认执行inner join Merge对行顺序保持不如 Postgres 那样严格...同时保持了左边DataFrame索引值和行顺序不变。...当有两个以上参数,情况会变得更加复杂。 自然,应该有一个简单方法来在这些格式之间进行转换。而Pandas为它提供了一个简单方便解决方案:透视表。...为了方便,pivot_table可以计算小计和大计: 一旦创建,数据透视表就变成了一个普通DataFrame,所以它可以使用前面描述标准方法进行查询: 当与MultiIndex一起使用时,数据透视表特别方便

35120

图解NumPy:常用函数内在机制

NumPy 数组完胜列表最简单例子是算术运算: 除此之外,NumPy 数组优势和特点还包括: 更紧凑,尤其是当维度大于一维; 当运算可以向量化时,速度比列表更快; 当在后面附加元素,速度比列表慢...在进行测试,我们通常需要生成随机数组: 向量索引 一旦你数组中有了数据,NumPy 就能以非常巧妙方式轻松地提供它们: 除了「花式索引(fancy indexing)」外,上面给出所有索引方法都被称为...「view」:它们并不存储数据,也不会在数据索引后发生改变反映原数组变化情况。...它们硬编码了 (y,x,z) 索引顺序,即 RGB 图像顺序: NumPy 使用 (y,x,z) 顺序示意图,堆叠 RGB 图像(这里仅有两种颜色) 如果你数据布局不同,使用 concatenate...最后,还有一个函数能避免你在处理多维数组使用太多训练,还能让你代码更简洁——einsum(爱因斯坦求和): 它会沿重复索引对数组求和。

3.6K10

30 个 Python 函数,加速你数据分析处理速度!

它可以对顺序数据(例如时间序列)非常有用。 8.删除缺失值 处理缺失值另一个方法是删除它们。以下代码将删除具有任何缺失值行。...12.Groupby 函数 Pandas Groupby 函数是一个多功能且易于使用功能,可帮助获取数据概述。它使浏览数据集和揭示变量之间基本关系更加容易。 我们将做几个组比函数示例。...df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True) 17.将特定列设置为索引 我们可以将数据任何列设置为索引...23.数据类型转换 默认情况下,分类数据与对象数据类型一起存储。但是,它可能会导致不必要内存使用,尤其是当分类变量具有较低基数。 低基数意味着列与行数相比几乎没有唯一值。...在计算时间序列或元素顺序数组中更改百分比,它很有用。

8.9K60

图解NumPy:常用函数内在机制

NumPy 数组完胜列表最简单例子是算术运算: 除此之外,NumPy 数组优势和特点还包括: 更紧凑,尤其是当维度大于一维; 当运算可以向量化时,速度比列表更快; 当在后面附加元素,速度比列表慢...在进行测试,我们通常需要生成随机数组: 向量索引 一旦你数组中有了数据,NumPy 就能以非常巧妙方式轻松地提供它们: 除了「花式索引(fancy indexing)」外,上面给出所有索引方法都被称为...「view」:它们并不存储数据,也不会在数据索引后发生改变反映原数组变化情况。...它们硬编码了 (y,x,z) 索引顺序,即 RGB 图像顺序: NumPy 使用 (y,x,z) 顺序示意图,堆叠 RGB 图像(这里仅有两种颜色) 如果你数据布局不同,使用 concatenate...最后,还有一个函数能避免你在处理多维数组使用太多训练,还能让你代码更简洁——einsum(爱因斯坦求和): 它会沿重复索引对数组求和。

3.2K20

独家 | Pandas 2.0 数据科学家游戏改变者(附链接)

1.表现,速度以及记忆效率 正如我们所知,pandas是使用numpy建立,并非有意设计为数据后端。因为这个原因,pandas主要局限之一就是较大数据内存处理。...浏览 pyarrow 支持数据类型和 numpy 数据类型之间等效性实际上可能是一个很好练习,以便您学习如何利用它们。 现在也可以在索引中保存更多 numpy 数值类型。...这意味着在启用写入时复制,某些方法将返回视图而不是副本,这通过最大限度地减少不必要数据重复来提高内存效率。 这也意味着在使用链式分配需要格外小心。...此外,我们可以进一步调查对数据进行分析类型:对于某些操作,1.5.2 和 2.0 版本之间差异似乎可以忽略不计。...本科曾混迹于计算机专业,后又在心理学道路上不懈求索。在学习过程中越来越发现数据分析应用范围之广,希望通过所学输出一些有意义工作,很开心加入数据派大家庭,保持谦逊,保持渴望。

35730

Python探索性数据分析,这样才容易掌握

3)可视化数据分布:条形图,直方图,箱型图等。 4)计算并可视化展示变量之间相关性(关系):热图 (heatmap)。...将每个 CSV 文件转换为 Pandas 数据对象如下图所示: ? 检查数据 & 清理脏数据进行探索性分析,了解您所研究数据是很重要。幸运是,数据对象有许多有用属性,这使得这很容易。...为了与当前任务保持一致,我们可以使用 .drop() 方法删除多余列,如下所示: ? 现在所有的数据具有相同维度! 不幸是,仍有许多工作要做。...为了合并数据而没有错误,我们需要对齐 “state” 列索引,以便在数据之间保持一致。我们通过对每个数据集中 “state” 列进行排序,然后从 0 开始重置索引值: ?...使用 Pandas pd.to_csv() 方法: ? 设置 index = False 保存没有索引数据。 是时候可视化呈现数据了!

4.9K30

Python 金融编程第二版(二)

还可以进行更一般量化操作。...③ 选择与索引c对应值。 ④ 选择与索引a和d对应两个值。 ⑤ 通过索引位置选择第二行和第三行。 ⑥ 计算单列总和。 ⑦ 使用apply()方法以向量化方式计算平方。...② 做同样事情,但忽略了索引。 ③ 具有与第一个相同效果,并且… ④ 第二个追加操作,分别。 连接 在连接这两个数据,DataFrame 对象顺序也很重要,但方式不同。...② 右连接与颠倒 DataFrame 对象顺序相同。 ③ 内连接仅保留那些在两个索引中都找到索引值。 ④ 外连接保留来自两个索引所有索引值。 也可以基于空 DataFrame 对象进行连接。...合并 虽然连接操作是基于要连接 DataFrame 对象索引进行,但合并操作通常是在两个数据之间共享列上进行

9610
领券