首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

高效的5个pandas函数,你都用过吗?

之前为大家介绍过10个高效的pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。 高效的10个Pandas函数,你都用过吗?...Nunique Nunique用于计算行或列上唯一的数量,即去重后计数。这个函数分类问题中非常实用,不知道某字段中有多少类元素,Nunique能快速生成结果。...= pd.DataFrame({'group':groups, 'year':years, 'value_1':values_1, 'value_2':values_2}) df 对year列进行唯一计数...: df.year.nunique() 输出:10 对整个dataframe的每一个字段进行唯一计数: df.nunique() 3. infer_objects infer_objects用于将...: index:指定是否返回df中索引字节大小,默认为True,返回的第一行即是索引的内存使用情况; deep:如果为True,则通过查询object类型进行系统级内存消耗来深入地检查数据,并将其包括返回

1.1K40

高效的5个pandas函数,你都用过吗?

之前为大家介绍过10个高效的pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。 高效的10个Pandas函数,你都用过吗?...Nunique Nunique用于计算行或列上唯一的数量,即去重后计数。这个函数分类问题中非常实用,不知道某字段中有多少类元素,Nunique能快速生成结果。...对year列进行唯一计数: df.year.nunique() 输出:10 对整个dataframe的每一个字段进行唯一计数: df.nunique() ?...4. memory_usage memory_usage用于计算dataframe每一列的字节存储大小,这对于大数据表非常有用。...: index:指定是否返回df中索引字节大小,默认为True,返回的第一行即是索引的内存使用情况; deep:如果为True,则通过查询object类型进行系统级内存消耗来深入地检查数据,并将其包括返回

1.2K20

灰太狼的数据世界(三)

一期我们了解了Pandas里面Series数据结构,了解了如何创建修改,清理Series,也了解了一些统计函数,例如方差,标准差,峰度这些数学概念。...):查看行数和列数 df.info():查看索引、数据类型和内存信息 df.describe():查看数值列的汇总统计 s.value_counts(dropna=False):查看Series对象的唯一计数...df.apply(pd.Series.value_counts):查看DataFrame对象中每一列唯一计数 print(df.head(2)) print(df[0:2]) ?...DataFrame中增加一列,我们可以直接给来增加一列,就和python的字典里面添加元素是一样的: import pandas as pd import numpy as np val = np.arange...) 我们也可以增加一些限制,一行中有多少非空的数据是可以保留下来的(在下面的例子中,行数据中至少要有 5 个非空) df1.drop(thresh=5) 删除不完整的列(dropna) 我们可以上面的操作应用到列上

2.8K30

删除重复,不只Excel,Python pandas更行

然而,数据集太大,或者电子表格中有公式,这项操作有时会变得很慢。因此,我们将探讨如何使用Python从数据表中删除重复项,它超级简单、快速、灵活。...删除重复 根据你试图实现的目标,我们可以使用不同的方法删除重复项。最常见的两种情况是:从整个表中删除重复项或从列中查找唯一。我们将了解如何使用不同的技术处理这两种情况。...图5 列表或数据表列中查找唯一 有时,我们希望在数据框架列的列表中查找唯一。在这种情况下,我们不会使用drop_duplicate()。...当我们对pandas Series对象调用.unique(),它将返回该列中唯一元素的列表。...图6 pandas Dataframe上调用.unique(),我们将收到一条错误消息,因为数据框架上上不存在此方法!

5.9K30

私藏的5个好用的Pandas函数!

Nunique Nunique用于计算行或列上唯一的数量,即去重后计数。这个函数分类问题中非常实用,不知道某字段中有多少类元素,Nunique能快速生成结果。...对year列进行唯一计数: df.year.nunique() 输出:10 对整个dataframe的每一个字段进行唯一计数: df.nunique() ?...用法: # 直接将df或者series推断为合适的数据类型 DataFrame.infer_objects() pandas支持多种数据类型,其中之一是object类型。...4. memory_usage memory_usage用于计算dataframe每一列的字节存储大小,这对于大数据表非常有用。...: index:指定是否返回df中索引字节大小,默认为True,返回的第一行即是索引的内存使用情况; deep:如果为True,则通过查询object类型进行系统级内存消耗来深入地检查数据,并将其包括返回

1.1K73

【数据分析】数据缺失影响模型效果?是时候需要missingno工具包来帮你了!

Pandas 快速分析 使用 missingno 库之前,pandas中有一些特性可以让我们初步了解丢失了多少数据。...这将返回一个表,其中包含有关数据帧的汇总统计信息,例如平均值、最大和最小表的顶部是一个名为counts的行。在下面的示例中,我们可以看到数据帧中的每个特性都有不同的计数。...一行的每列中都有一个,该行将位于最右边的位置。该行中缺少的开始增加,该行将向左移动。 热图 热图用于确定不同列之间的零度相关性。换言之,它可以用来标识每一列之间是否存在空关系。...接近正1的表示一列中存在空与另一列中存在空相关。 接近负1的表示一列中存在空与另一列中存在空是反相关的。换句话说,一列中存在空,另一列中存在数据,反之亦然。...这可以通过使用missingno库和一系列可视化来实现,以了解有多少缺失数据存在、发生在哪里,以及不同数据列之间缺失的发生是如何关联的。

4.7K30

Pandas图鉴(二):Series 和 Index

从原理上讲,如下图所示: 一般来说,需要保持索引唯一性。例如,索引中存在重复的,查询速度的提升并不会提升。...Pandas没有像关系型数据库那样的 "唯一约束"(该功能[4]仍在试验中),但它有一些函数来检查索引中的是否唯一,并以各种方式删除重复。 有时,但一索引不足以唯一地识别某行。...大多数Pandas函数都会忽略缺失的: 更高级的函数(median, rank, quantile等)也是如此。 算术操作是根据索引来调整的: 索引中存在非唯一的情况下,其结果是不一致的。...比较混合类型的DataFrame,NumPy就会出问题(问题#19205[5]),而Pandas做得非常好。...字符串和正则表达式 几乎所有的Python字符串方法Pandas中都有一个矢量的版本: count, upper, replace 这样的操作返回多个,有几个选项来决定如何使用它们: split

23020

一场pandas与SQL的巅峰大战(二)

pandas和SQL代码如下所示,注意使用like,%是通配符,表示匹配任意长度的字符。 ?...我定义了两个函数,第一个函数给原数据增加一列,标记我们的条件,第二个函数再增加一列满足条件,给出对应的orderid,然后要对整个dataframe应用这两个函数。...对于我们不关心的行,这两列的都为nan。第三步再进行去重计数操作。...我没有找到pandas实现这样数组形式比较好的方法,如果你知道,欢迎一起交流.另外,pandas聚合时,如何去重,也是一个待解决的问题。...先来看pandas如何实现,这里我们需要用到literal_eval这个包,能够自动识别以字符串形式存储的数组。

2.3K20

没错,这篇文章教你妙用Pandas轻松处理大规模数据

下面的图标展示了数字如何存储 NumPy 数据类型中,以及字符串如何使用 Python 内置的类型存储。 你可能已经注意到,我们的图表之前将对象类型描述成使用可变内存量。...每个指针占用一字节的内存,每个字符的字符串占用的内存量与 Python 中单独存储相同。...category 类型底层使用整数类型来表示该列的,而不是原始Pandas 用一个单独的字典来映射整数值和相应的原始之间的关系。一列包含的数值集有限时,这种设计是很有用的。...当我们将列转换为 category dtype Pandas 使用了最省空间的 int 子类型,来表示一列中所有的唯一。 想要知道我们可以怎样使用这种类型来减少内存使用量。...对象列中少于 50% 的唯一对象,我们应该坚持使用 category 类型。但是如果这一列中所有的都是唯一的,那么 category 类型最终将占用更多的内存。

3.6K40

python数据科学系列:pandas入门详细教程

自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、多列或多行:单或多值(多个列名组成的列表)访问按列进行查询,单访问不存在列名歧义还可直接用属性符号" ....切片形式访问按行进行查询,又区分数字切片和标签切片两种情况:输入数字索引切片时,类似于普通列表切片;输入标签切片时,执行范围查询(即无需切片首末存在于标签列中),包含两端标签结果,无匹配行时返回为空...广播机制,即维度或形状不匹配,会按一定条件广播后计算。由于pandas是带标签的数组,所以广播过程中会自动按标签匹配进行广播,而非类似numpy那种纯粹按顺序进行广播。...3 数据转换 前文提到,处理特定可用replace对每个元素执行相同的操作,然而replace一般仅能用于简单的替换操作,所以pandas还提供了更为强大的数据转换方法 map,适用于series...unique、nunique,也是仅适用于series对象,统计唯一信息,前者返回唯一结果列表,后者返回唯一个数(number of unique) ?

13.8K20

Python开发之Pandas的使用

一、简介 Pandas 是 Python 中的数据操纵和分析软件包,它是基于Numpy去开发的,所以Pandas的数据处理速度也很快,而且Numpy中的有些函数Pandas中也能使用,方法也类似。...Pandas 为 Python 带来了两个新的数据结构,即 Pandas Series(可类比于表格中的某一列)和 Pandas DataFrame(可类比于表格)。...6、缺失(NaN)处理 查找NaN 可以使用isnull()和notnull()函数来查看数据集中是否存在缺失数据,该函数后面添加sum()函数来对缺失数量进行统计。...删除NaN – df.dropna() dropna()函数还有一个参数是how,how = all,只会删除全部数据都为NaN的列或行。...df['col_name'].unique() #查看某列唯一数量 df['col_name'].nunique() #以某列对数据集进行排序 df.sort_values(by = 'col_name

2.8K10

Python数据分析笔记——Numpy、Pandas

Python数据分析——Numpy、Pandas库 总第48篇 ▼ 利用Python进行数据分析中有两个重要的库是Numpy和Pandas,本章将围绕这两个库进行展开介绍。...也可以按columns(行)进行重新索引,对于不存在的列名称,将被填充空。 对于不存在的索引带来的缺失,也可以重新索引使用fill_value给缺失填充指定。...3、算数运算和数据对齐 (1)Series 与Series之间的运算 将不同索引的对象进行算数运算,将对象进行相加,如果存在,则结果的索引就是该索引的并集,而结果的对象为空。...(列从0开始计数) 6、汇总和计算描述统计 就是针对数组进行常用的数学和统计运算。大部分都属于约简和汇总统计。 其中有求和(sum)运算、累计(cumsum)运算、平均值(mean)等运算。...8、计数 用于计算一个Series中各出现的次数。 9、层次化索引 层次化索引是pandas的一个重要功能,它的作用是使你一个轴上拥有两个或多个索引级别。

6.4K80

pandas入门①数据统计

本指南直接来自pandas官方网站上的10分钟pandas指南。 我将它改写以使代码更易于访问。 本指南适用于之前未使用pandas的初学者。...:查看行数和列数 df.info():查看索引、数据类型和内存信息 df.describe():查看数值型列的汇总统计 s.value_counts(dropna=False):查看Series对象的唯一计数...df.apply(pd.Series.value_counts):查看DataFrame对象中每一列唯一计数 数据排序 df.sort_index(axis=1, ascending=False...two -0.413331 three -2.767427 four -0.763200 Name: 2014-11-04 00:00:00, dtype: float64 通过标签来多个轴上进行选择...df.mean():返回所有列的均值 df.corr():返回列与列之间的相关系数 df.count():返回每一列中的非空的个数 df.max():返回每一列的最大 df.min():返回每一列的最小

1.5K20

Python科学计算之Pandas

Pandas让这件事变得非常简单。 ? 这将返回一个包含多种统计信息的表格,例如,计数,均值,标准方差等。它看起来像这样: ? 过滤 当你查看你的数据集,你可能希望获得一个特殊的样本数据。...好,我们也可以Pandas中做同样的事。 ? 上述代码将范围一个布尔的dataframe,其中,如果9、10月的降雨量低于1000毫米,则对应的布尔为‘True’,反之,则为’False’。...在上面这个例子中,我们把我们的索引全部设置为了字符串。这意味着我们不可以使用iloc索引这些列了。这种情况该如何?我们使用loc。 ?...这一列是由’water_year’列所导出的。它获取的是主年份。这便是使用apply的方法,即如何一列应用一个函数。...当我们以年份这一列进行合并,仅仅’jpn_rainfall’这一列和我们UK雨量数据集的对应列进行了合并。 ?

2.9K00
领券