首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

20个能够有效提高 Pandas数据分析效率常用函数,附带解释和例子

重要一点是,pandas 和 numpywhere函数并不完全相同。我们可以得到相同结果,但语法存在差异。Np.where还需要指定对象。...对于标签,如果我们不分配任何特定索引,pandas默认创建整数索引。因此,标签是从0开始向上整数。与iloc一起使用位置也是从0开始整数。...如果axis参数设置1,nunique将返回每行中唯一数目。 13. Lookup 'lookup'可以用于根据标签在dataframe中查找指定。假设我们有以下数据: ?...使用更具体数据类型,某些操作执行得更快。例如,对于数值,我们更喜欢使用整数浮点数据类型。 infer_objects尝试对象推断更好数据类型。考虑以下数据: ?...Merge Merge()根据共同组合dataframe。考虑以下两个数据: ? 我们可以基于共同合并它们。设置合并条件参数是“on”参数。 ?

5.5K30

Pandas 秘籍:1~5

这些参数中每一个都可以设置字典,该字典将旧标签映射到它们更多 重命名标签和标签有多种方法。 可以直接将索引和属性重新分配给 Python 列表。...操作步骤 创建最简单方法是分配标量值。 将名称作为字符串放入索引运算符。 让我们在电影数据集中创建has_seen以指示我们是否看过电影。 我们将为每个分配零。...当像上一步那样将数字彼此相加时,pandas 将缺失默认为零。 但是,如果缺少特定所有,则 Pandas 也会将总数也保留丢失。...更多 除了insert方法末尾,还可以将插入数据帧中特定位置。insert方法将整数位置作为第一个参数,将名称作为第二个参数,并将作为第三个参数。...drop_duplicates方法默认行为是保留每个唯一第一次出现,因为每一都是唯一,所以不会删除任何。 但是,subset参数将其更改为仅考虑其提供列表)。

37.3K10
您找到你想要的搜索结果了吗?
是的
没有找到

对比Excel,Python pandas在数据框架中插入列

标签:Python与Excel,pandas 在Excel中,可以通过功能区或者快捷菜单中命令快捷键插入列,对于Python来说,插入列也很容易。...我们已经探讨了如何将插入到数据框架中,并且我们必须为此创建一个定制解决方案。将插入数据框架要容易得多,因为pandas提供了一个内置解决方案。我们将看到一些将插入到数据框架不同方法。...该方法接受以下参数: loc–用于插入索引号 column–列名称 value–要插入数据 让我们使用前面的示例来演示。我们目标是在第一之后插入一个100。...例如,df[['1','2','3']]将为我们提供一个包含三数据框架,即“1”、“2”和“3”。最好情况是,顺序与你键入这些名称顺序完全相同。...图4 使用.reindex()改变顺序 这基本上是相同思想——对列名重新排序,此方法与前一种方法唯一区别在于语法。

2.8K20

删除重复,不只Excel,Python pandas

import pandas as pd df = pd.read_excel(‘D:\用户-1.xlsx’) 图2 快速观察上述小表格: 第1和第5包含完全相同信息。...第3和第4包含相同用户名,但国家和城市不同。 删除重复 根据你试图实现目标,我们可以使用不同方法删除重复项。最常见两种情况是:从整个表中删除重复项中查找唯一。...如果我们指定inplace=True,那么原始df将替换为数据框架,并删除重复项。 图5 在列表数据表列中查找唯一 有时,我们希望在数据框架列表中查找唯一。...我意思是,虽然我们可以这样做,但是有更好方法找到唯一pandas Series vs pandas数据框架 对于Excel用户来说,很容易记住他们之间差异。...我们pandas Series)包含两个重复,”Mary Jane”和”Jean Grey”。通过将该转换为一个集,我们可以有效地删除重复项!

5.9K30

Python 数据处理:Pandas使用

下表对DataFrame进行了总结: 类型 描述 df[val] 从DataFrame选取单列;在特殊情况下比较便利:布尔型数组(过滤)、切片(切片)、布尔型DataFrame(根据条件设置...通过标签选取 get_value, set_value 通过标签选取单一 ---- 2.5 整数索引 处理整数索引 Pandas 对象常常难住新手,因为它与 Python 内置列表和元组索引语法不同...Series索引匹配到DataFrame,然后沿着一直向下广播: print(frame - series) 如果某个索引在DataFrameSeries索引中找不到,则参与运算两个对象就会被重新索引以形成并集...选项: 方法 描述 'average' 默认:在相等分组中,各个分配平均排名 'min' 使用整个分组最小排名 'max' 使用整个分组最大排名 'first' 按在原始数据中出现顺序分配排名...计算Series中唯一数组,按发现顺序返回 value_counts 返回一个Series,其索引为唯一,其频率,按计数值降序排列 有时,你可能希望得到DataFrame中多个相关一张柱状图

22.7K10

Pandas 秘籍:6~11

每当索引标签对于一个对象唯一时,Pandas 默认为缺少。 不幸结果是,将序列数据类型更改为float,而每个序列仅具有整数作为。 发生这种情况是因为 NumPy 缺少对象。...例如nth方法,当给定一个整数列表时,该方法从每个中选择那些特定。...更多 在此秘籍中,我们每个返回一作为序列。 通过返回数据帧,可以为每个返回任意数量。...由于两个数据帧索引相同,因此可以像第 7 步中那样将一个数据帧分配给另一更多 从步骤 2 开始,完成此秘籍另一种方法是直接从sex_age分配,而无需使用split方法。...默认情况下,Pandas 将使用数据帧每个数字制作一条形,线形,KDE,盒形图直方图,并在将其作为两变量图时将索引用作 x 。 散点图是例外之一,必须明确 x 和 y 指定一

33.8K10

没错,这篇文章教你妙用Pandas轻松处理大规模数据

对于表示数值(如整数和浮点数)块,Pandas 将这些组合在一起,并存储 NumPy ndarry 数组。...因为 Pandas 中,相同类型分配到相同字节数,而 NumPy ndarray 里存储了数量,所以 Pandas 可以快速并准确地返回一个数值占用字节数。...你可以看到,每个唯一都被分配了一个整数,并且该底层数据类型现在是 int8。该没有任何缺失,如果有的话,这个 category 子类型会将缺省设置 -1。...当对象中少于 50% 唯一对象时,我们应该坚持使用 category 类型。但是如果这一中所有的都是唯一,那么 category 类型最终将占用更多内存。...这是因为不仅要存储整数 category 代码,还要存储所有的原始字符串。你可以阅读 Pandas 文档,了解 category 类型更多限制。

3.6K40

进步神速,Pandas 2.1中改进和新功能

前言 Pandas 2.1于2023年8月30日发布。跟随本文一起看看这个版本引入了哪些内容,以及它如何帮助用户改进Pandas工作负载。它包含了一系列改进和一弃用功能。...有100万和10个。...弃用setitem类操作中静默类型转换 一直以来,如果将不兼容设置到pandas中,pandas会默默地更改该数据类型。...Object是唯一可以容纳整数和字符串数据类型。这对许多用户来说是一个很大问题。Object会占用大量内存,导致计算无法正常进行、性能下降等许多问题。...当想要更改数据类型时,则必须明确指定,这会增加一些代码量,但对于后续开发人员来说更容易理解。 这个变化会影响所有的数据类型,例如将浮点设置到整数列中也会引发异常。

81310

Python 数据分析(PYDA)第三版(二)

例如,numpy.zeros和numpy.ones分别创建长度形状 0 1 数组。numpy.empty创建一个数组,而不将其初始化为任何特定。...0 数组 empty, empty_like 通过分配内存创建数组,但不像ones和zeros那样填充任何 full, full_like 生成具有给定形状和数据类型数组,所有都设置指定...[row, col] 通过标签选择单个标量值 df.iat[row, col] 通过和列位置(整数)选择单个标量值 reindex方法 通过标签选择 整数索引陷阱 使用整数索引 pandas...方法 描述 "average" 默认:相等每个条目分配平均等级 "min" 使用整个最小等级 "max" 使用整个最大等级 "first" 按数据中值出现顺序分配等级 "dense"...表 5.9:唯一计数和成员资格方法 方法 描述 isin 计算一个布尔数组,指示每个 Series DataFrame 是否包含在传递序列中 get_indexer 数组中每个计算整数索引

20600

Pandas 学习手册中文第二版:1~5

这包括指定数据类型(整数,浮点数,字符串等),以及对数据任何限制,例如字符数,最大和最小对一特定限制。 结构化数据是 Pandas 设计要利用数据类型。...正如我们将首先使用Series然后使用DataFrame所看到那样,pandas 将结构化数据组织一个多个数据,每个都是一个特定数据类型,然后是零个多个数据序列。...以下显示Missoula中大于82度: 然后可以将表达式结果应用于数据帧(和序列)[]运算符,这仅导致返回求值True表达式: 该技术在 pandas 术语中称为布尔选择,它将构成基于特定选择基础...如果在原始Series中找不到标签,则将NaN分配。 最后,将删除Series中带有不在索引中标签。...重新索引Series以创建连续整数索引,并通过使用method='ffill'参数,任何索引标签分配先前已知非 NaN : [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

8.1K10

PostgreSQL 教程

最后,您将学习如何管理数据库表,例如创建修改现有表结构。 第 1 节. 查询数据 主题 描述 简单查询 向您展示如何从单个表中查询数据。 别名 了解如何为查询中表达式分配临时名称。...完全外连接 使用完全连接查找一个表中在另一个表中没有匹配。 交叉连接 生成两个多个表中笛卡尔积。 自然连接 根据连接表中公共列名称,使用隐式连接条件连接两个多个表。 第 4 节....INTERSECT 组合两个多个查询结果集并返回一个结果集,该结果集行都出现在两个结果集中。 EXCEPT 返回第一个查询中未出现在第二个查询输出中。 第 6 节....连接删除 根据另一个表中删除表中。 UPSERT 如果已存在于表中,则插入更新数据。 第 10 节....检查约束 添加逻辑以基于布尔表达式检查唯一约束 确保一在整个表中是唯一。 非空约束 确保不是NULL。 第 14 节.

47810

Python数据分析笔记——Numpy、Pandas

Python数据分析——Numpy、Pandas库 总第48篇 ▼ 利用Python进行数据分析中有两个重要库是Numpy和Pandas,本章将围绕这两个库进行展开介绍。...也可以在创建Series时候直接创建索引。 b、通过字典形式来创建Series。 (3)获取Series中 通过索引方式选取Series中单个。...(3)获取DataFrame) 通过查找columns获取对应。(下面两种方法) 通过索引字段ix查找相应。 (4)对进行赋值处理。 对某一可以赋一个标量值也可以是一。...Pandas基本功能 1、重新索引 Pandas对象一个方法就是重新索引(reindex),其作用是创建一个索引,pandas对象将按这个索引进行排序。对于不存在索引,引入缺失。...8、计数 用于计算一个Series中各出现次数。 9、层次化索引 层次化索引是pandas一个重要功能,它作用是使你在一个轴上拥有两个多个索引级别。

6.4K80

10招!看骨灰级Pythoner如何玩转Python

这是因为df2 = df1没有复制df1并将其分配给df2,而是设置指向df1指针。...缺失数量 构建模型时,你可能希望排除具有很多缺失全是缺失。你可以使用.isnull()和.sum()来计算指定中缺失数量。...选择具有特定ID 在SQL中,我们可以使用SELECT * FROM ... WHERE ID( A001 , C022 ,...)来获取具有特定ID记录。...Percentile groups 你有一个数字,并希望将该分类,例如将前5%,分为1,前5-20%分为2,前20%-50%分为3,最后50%分为4。...另一个技巧是处理混合在一起整数和缺失。如果同时包含缺失整数,则数据类型仍将是float而不是int。导出表时,可以添加float_format = %。0f 将所有浮点数舍入整数

2.3K30

如何用Python将时间序列转换为监督学习问题

对于一个给定DataFrame,可以使用 shift() 函数前移(前面的缺失用NaN补全)后移(后面的缺失用NaN补全)来采集定长切片保存至中。...(1) print(df) 运行代码,我们在原有数据集基础上得到了两数据,第一原始观测,第二下移后得到。...shift操作也可以接受负整数作为输入,这样效果是在末尾插入来提取观测结果。...该函数返回一个: return:监督学习重组得到Pandas DataFrame序列。 数据集将被构造DataFrame,每一根据变量编号以及该左移右移步长来命名。...这意味着我们通过不同测量手段得到了多种观测,并且希望预测其中一个几个。 例如,我们可能有两时间序列观测obs1,obs2,我们希望预测其中一个两个

24.7K2110

涨姿势!看骨灰级程序员如何玩转Python

缺失数量 构建模型时,你可能希望排除具有很多缺失全是缺失。你可以使用.isnull()和.sum()来计算指定中缺失数量。 1....选择具有特定ID 在SQL中,我们可以使用SELECT * FROM ... WHERE ID('A001','C022',...)来获取具有特定ID记录。...Percentile groups 你有一个数字,并希望将该分类,例如将前5%,分为1,前5-20%分为2,前20%-50%分为3,最后50%分为4。...print(df[:5].to_csv()) 你可以使用此命令准确地打印出写入文件前五数据。 另一个技巧是处理混合在一起整数和缺失。...如果同时包含缺失整数,则数据类型仍将是float而不是int。导出表时,可以添加float_format ='%。0f'将所有浮点数舍入整数

2.3K20

Pandas 学习手册中文第二版:6~10

从结果索引中删除其指定级别。 level参数可用于选择在指定级别具有特定索引。 以下代码选择索引Symbol分量ALLE。...pandas 可以使用一种称为Categorical pandas 对象来表示类别变量。 这些 Pandas 对象旨在有效地表示分组存储桶数据,每个存储桶由代表其中一个类别的整数代码表示。...重命名类别 通过为.categories属性分配使用.rename_categories()方法,类别人员可以重命名。...数据形状已更改,现在有其他,在重塑时无法确定 可能还有更多原因,但是总的来说,这些情况的确会发生,作为 Pandas 用户,您将需要解决这些情况才能进行有效数据分析 让我们开始研究如何通过创建具有一些缺失数据点数据帧来处理缺失数据...因此,在 Pandas 中,最好只添加全新对象),并且如果以后内存性能成为问题,请根据需要进行优化。

2.2K20

Pandas图鉴(二):Series 和 Index

Pandas 给 NumPy 数组带来两个关键特性是: 异质类型 —— 每一都允许有自己类型 索引 —— 提高指定查询速度 事实证明,这些功能足以使Pandas成为Excel和数据库强大竞争者...对于非数字标签来说,这有点显而易见:为什么(以及如何)Pandas在删除一后,会重新标记所有后续对于数字标签,答案就有点复杂了。...Pandas没有像关系型数据库那样 "唯一约束"(该功能[4]仍在试验中),但它有一些函数来检查索引中是否唯一,并以各种方式删除重复。 有时,但一索引不足以唯一地识别某行。...NaNs 在这个例子中,根据数值除以10整数部分,将系列分成三。...对于每一,要求提供元素总和,元素数量,以及每一平均值。 除了这些集合功能,还可以根据特定元素在位置相对价值来访问它们。

22320

30 个小例子帮你快速掌握Pandas

我们可以使用特定,聚合函数(例如均值)上一个下一个对于Geography,我将使用最常见。 ?...同样,对于Balance,我将使用均值替换缺失。...这对于顺序数据(例如时间序列)非常有用。 8.删除缺失 处理缺失另一种方法是删除它们。“已退出”中仍缺少。以下代码将删除缺少任何。...method参数指定如何处理具有相同。first表示根据它们在数组(即)中顺序对其进行排名。 21.唯一数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。...低基数意味着与行数相比,一具有很少唯一。例如,Geography具有3个唯一和10000。 我们可以通过将其数据类型更改为category来节省内存。

10.6K10

4个解决特定任务Pandas高效代码

在本文中,我将分享4个在一代码中完成Pandas操作。这些操作可以有效地解决特定任务,并以一种好方式给出结果。 从列表中创建字典 我有一份商品清单,我想看看它们分布情况。...,这是Pandas一维数据结构,然后应用value_counts函数来获得在Series中出现频率唯一,最后将输出转换为字典。...需要重新格式化它,该列表中每个项目提供单独。 这是一个经典分割成问题。有许多不同方法来解决这个任务。其中最简单一个(可能是最简单)是Explode函数。...DataFrame分配一个整数索引。...如果有一缺少(即NaN),用B中同一填充它。

19010

使用Python Xlsxwriter创建Excel电子表格

方法add_sheet()在该Excel文件中创建一个工作表/选项卡。...引用单元格和单元格区域 可以使用“A1”)符号来引用Excel中单元格。由于Python索引从0开始,因此(0,0)表示“A1”,而(1,1)实际上表示“B2”。...xl_cell_to_rowcol()作用正好相反,它将“A1”符号转换为(0,0)。 xl_col_to_name()将整数列编号转换为字母。同样,注意索引以0开始。...xl_range()将()表示法转换为区域表示法,如“A1:C10”。它有4个参数:(开始行、开始、结束、结束),只有整数值是有效参数。...Worksheet.write()首先获取一两个整数值,这是单元格)表示法,在上面的示例中,我们将消息“hello excel”写入单元格A1。 记住保存并关闭工作簿。

4.2K40
领券