首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    高效的5个pandas函数,你都用过吗?

    之前为大家介绍过10个高效的pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。 高效的10个Pandas函数,你都用过吗?...Nunique Nunique用于计算行或列上唯一值的数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...对year列进行唯一值计数: df.year.nunique() 输出:10 对整个dataframe的每一个字段进行唯一值计数: df.nunique() ?...4. memory_usage memory_usage用于计算dataframe每一列的字节存储大小,这对于大数据表非常有用。...: index:指定是否返回df中索引字节大小,默认为True,返回的第一行即是索引的内存使用情况; deep:如果为True,则通过查询object类型进行系统级内存消耗来深入地检查数据,并将其包括在返回值中

    1.2K20

    高效的5个pandas函数,你都用过吗?

    之前为大家介绍过10个高效的pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。 高效的10个Pandas函数,你都用过吗?...Nunique Nunique用于计算行或列上唯一值的数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...= pd.DataFrame({'group':groups, 'year':years, 'value_1':values_1, 'value_2':values_2}) df 对year列进行唯一值计数...: df.year.nunique() 输出:10 对整个dataframe的每一个字段进行唯一值计数: df.nunique() 3. infer_objects infer_objects用于将...: index:指定是否返回df中索引字节大小,默认为True,返回的第一行即是索引的内存使用情况; deep:如果为True,则通过查询object类型进行系统级内存消耗来深入地检查数据,并将其包括在返回值中

    1.2K40

    灰太狼的数据世界(三)

    一期我们了解了Pandas里面Series数据结构,了解了如何创建修改,清理Series,也了解了一些统计函数,例如方差,标准差,峰度这些数学概念。...):查看行数和列数 df.info():查看索引、数据类型和内存信息 df.describe():查看数值列的汇总统计 s.value_counts(dropna=False):查看Series对象的唯一值和计数...df.apply(pd.Series.value_counts):查看DataFrame对象中每一列的唯一值和计数 print(df.head(2)) print(df[0:2]) ?...在DataFrame中增加一列,我们可以直接给值来增加一列,就和python的字典里面添加元素是一样的: import pandas as pd import numpy as np val = np.arange...) 我们也可以增加一些限制,在一行中有多少非空值的数据是可以保留下来的(在下面的例子中,行数据中至少要有 5 个非空值) df1.drop(thresh=5) 删除不完整的列(dropna) 我们可以上面的操作应用到列上

    2.8K30

    私藏的5个好用的Pandas函数!

    Nunique Nunique用于计算行或列上唯一值的数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...对year列进行唯一值计数: df.year.nunique() 输出:10 对整个dataframe的每一个字段进行唯一值计数: df.nunique() ?...用法: # 直接将df或者series推断为合适的数据类型 DataFrame.infer_objects() pandas支持多种数据类型,其中之一是object类型。...4. memory_usage memory_usage用于计算dataframe每一列的字节存储大小,这对于大数据表非常有用。...: index:指定是否返回df中索引字节大小,默认为True,返回的第一行即是索引的内存使用情况; deep:如果为True,则通过查询object类型进行系统级内存消耗来深入地检查数据,并将其包括在返回值中

    1.1K73

    删除重复值,不只Excel,Python pandas更行

    然而,当数据集太大,或者电子表格中有公式时,这项操作有时会变得很慢。因此,我们将探讨如何使用Python从数据表中删除重复项,它超级简单、快速、灵活。...删除重复值 根据你试图实现的目标,我们可以使用不同的方法删除重复项。最常见的两种情况是:从整个表中删除重复项或从列中查找唯一值。我们将了解如何使用不同的技术处理这两种情况。...图5 在列表或数据表列中查找唯一值 有时,我们希望在数据框架列的列表中查找唯一值。在这种情况下,我们不会使用drop_duplicate()。...当我们对pandas Series对象调用.unique()时,它将返回该列中唯一元素的列表。...图6 在pandas Dataframe上调用.unique()时,我们将收到一条错误消息,因为数据框架上上不存在此方法!

    6.1K30

    【数据分析】数据缺失影响模型效果?是时候需要missingno工具包来帮你了!

    Pandas 快速分析 在使用 missingno 库之前,pandas库中有一些特性可以让我们初步了解丢失了多少数据。...这将返回一个表,其中包含有关数据帧的汇总统计信息,例如平均值、最大值和最小值。在表的顶部是一个名为counts的行。在下面的示例中,我们可以看到数据帧中的每个特性都有不同的计数。...当一行的每列中都有一个值时,该行将位于最右边的位置。当该行中缺少的值开始增加时,该行将向左移动。 热图 热图用于确定不同列之间的零度相关性。换言之,它可以用来标识每一列之间是否存在空值关系。...接近正1的值表示一列中存在空值与另一列中存在空值相关。 接近负1的值表示一列中存在空值与另一列中存在空值是反相关的。换句话说,当一列中存在空值时,另一列中存在数据值,反之亦然。...这可以通过使用missingno库和一系列可视化来实现,以了解有多少缺失数据存在、发生在哪里,以及不同数据列之间缺失值的发生是如何关联的。

    4.8K30

    Pandas图鉴(二):Series 和 Index

    从原理上讲,如下图所示: 一般来说,需要保持索引值的唯一性。例如,在索引中存在重复的值时,查询速度的提升并不会提升。...Pandas没有像关系型数据库那样的 "唯一约束"(该功能[4]仍在试验中),但它有一些函数来检查索引中的值是否唯一,并以各种方式删除重复值。 有时,但一索引不足以唯一地识别某行。...大多数Pandas函数都会忽略缺失的值: 更高级的函数(median, rank, quantile等)也是如此。 算术操作是根据索引来调整的: 在索引中存在非唯一值的情况下,其结果是不一致的。...当比较混合类型的DataFrame时,NumPy就会出问题(问题#19205[5]),而Pandas做得非常好。...字符串和正则表达式 几乎所有的Python字符串方法在Pandas中都有一个矢量的版本: count, upper, replace 当这样的操作返回多个值时,有几个选项来决定如何使用它们: split

    33720

    一场pandas与SQL的巅峰大战(二)

    pandas和SQL代码如下所示,注意使用like时,%是通配符,表示匹配任意长度的字符。 ?...我定义了两个函数,第一个函数给原数据增加一列,标记我们的条件,第二个函数再增加一列,当满足条件时,给出对应的orderid,然后要对整个dataframe应用这两个函数。...对于我们不关心的行,这两列的值都为nan。第三步再进行去重计数操作。...我没有找到pandas实现这样数组形式比较好的方法,如果你知道,欢迎一起交流.另外,pandas在聚合时,如何去重,也是一个待解决的问题。...先来看pandas中如何实现,这里我们需要用到literal_eval这个包,能够自动识别以字符串形式存储的数组。

    2.3K20

    没错,这篇文章教你妙用Pandas轻松处理大规模数据

    下面的图标展示了数字值是如何存储在 NumPy 数据类型中,以及字符串如何使用 Python 内置的类型存储。 你可能已经注意到,我们的图表之前将对象类型描述成使用可变内存量。...当每个指针占用一字节的内存时,每个字符的字符串值占用的内存量与 Python 中单独存储时相同。...category 类型在底层使用整数类型来表示该列的值,而不是原始值。Pandas 用一个单独的字典来映射整数值和相应的原始值之间的关系。当某一列包含的数值集有限时,这种设计是很有用的。...当我们将列转换为 category dtype 时,Pandas 使用了最省空间的 int 子类型,来表示一列中所有的唯一值。 想要知道我们可以怎样使用这种类型来减少内存使用量。...当对象列中少于 50% 的值时唯一对象时,我们应该坚持使用 category 类型。但是如果这一列中所有的值都是唯一的,那么 category 类型最终将占用更多的内存。

    3.7K40

    python数据科学系列:pandas入门详细教程

    自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、多列或多行:单值或多值(多个列名组成的列表)访问时按列进行查询,单值访问不存在列名歧义时还可直接用属性符号" ....切片形式访问时按行进行查询,又区分数字切片和标签切片两种情况:当输入数字索引切片时,类似于普通列表切片;当输入标签切片时,执行范围查询(即无需切片首末值存在于标签列中),包含两端标签结果,无匹配行时返回为空...广播机制,即当维度或形状不匹配时,会按一定条件广播后计算。由于pandas是带标签的数组,所以在广播过程中会自动按标签匹配进行广播,而非类似numpy那种纯粹按顺序进行广播。...3 数据转换 前文提到,在处理特定值时可用replace对每个元素执行相同的操作,然而replace一般仅能用于简单的替换操作,所以pandas还提供了更为强大的数据转换方法 map,适用于series...unique、nunique,也是仅适用于series对象,统计唯一值信息,前者返回唯一值结果列表,后者返回唯一值个数(number of unique) ?

    15K20

    Python开发之Pandas的使用

    一、简介 Pandas 是 Python 中的数据操纵和分析软件包,它是基于Numpy去开发的,所以Pandas的数据处理速度也很快,而且Numpy中的有些函数在Pandas中也能使用,方法也类似。...Pandas 为 Python 带来了两个新的数据结构,即 Pandas Series(可类比于表格中的某一列)和 Pandas DataFrame(可类比于表格)。...6、缺失值(NaN)处理 查找NaN 可以使用isnull()和notnull()函数来查看数据集中是否存在缺失数据,在该函数后面添加sum()函数来对缺失数量进行统计。...删除NaN – df.dropna() dropna()函数还有一个参数是how,当how = all时,只会删除全部数据都为NaN的列或行。...df['col_name'].unique() #查看某列唯一值数量 df['col_name'].nunique() #以某列对数据集进行排序 df.sort_values(by = 'col_name

    2.9K10

    Python数据分析笔记——Numpy、Pandas库

    Python数据分析——Numpy、Pandas库 总第48篇 ▼ 利用Python进行数据分析中有两个重要的库是Numpy和Pandas,本章将围绕这两个库进行展开介绍。...也可以按columns(行)进行重新索引,对于不存在的列名称,将被填充空值。 对于不存在的索引值带来的缺失值,也可以在重新索引时使用fill_value给缺失值填充指定值。...3、算数运算和数据对齐 (1)Series 与Series之间的运算 将不同索引的对象进行算数运算,在将对象进行相加时,如果存在时,则结果的索引就是该索引的并集,而结果的对象为空。...(列从0开始计数) 6、汇总和计算描述统计 就是针对数组进行常用的数学和统计运算。大部分都属于约简和汇总统计。 其中有求和(sum)运算、累计(cumsum)运算、平均值(mean)等运算。...8、值计数 用于计算一个Series中各值出现的次数。 9、层次化索引 层次化索引是pandas的一个重要功能,它的作用是使你在一个轴上拥有两个或多个索引级别。

    6.4K80

    pandas入门①数据统计

    本指南直接来自pandas官方网站上的10分钟pandas指南。 我将它改写以使代码更易于访问。 本指南适用于之前未使用pandas的初学者。...:查看行数和列数 df.info():查看索引、数据类型和内存信息 df.describe():查看数值型列的汇总统计 s.value_counts(dropna=False):查看Series对象的唯一值和计数...df.apply(pd.Series.value_counts):查看DataFrame对象中每一列的唯一值和计数 数据排序 df.sort_index(axis=1, ascending=False...two -0.413331 three -2.767427 four -0.763200 Name: 2014-11-04 00:00:00, dtype: float64 通过标签来在多个轴上进行选择...df.mean():返回所有列的均值 df.corr():返回列与列之间的相关系数 df.count():返回每一列中的非空值的个数 df.max():返回每一列的最大值 df.min():返回每一列的最小值

    1.5K20

    Python科学计算之Pandas

    Pandas让这件事变得非常简单。 ? 这将返回一个包含多种统计信息的表格,例如,计数,均值,标准方差等。它看起来像这样: ? 过滤 当你查看你的数据集时,你可能希望获得一个特殊的样本数据。...好,我们也可以在Pandas中做同样的事。 ? 上述代码将范围一个布尔值的dataframe,其中,如果9、10月的降雨量低于1000毫米,则对应的布尔值为‘True’,反之,则为’False’。...在上面这个例子中,我们把我们的索引值全部设置为了字符串。这意味着我们不可以使用iloc索引这些列了。这种情况该如何?我们使用loc。 ?...这一列是由’water_year’列所导出的。它获取的是主年份。这便是使用apply的方法,即如何对一列应用一个函数。...当我们以年份这一列进行合并时,仅仅’jpn_rainfall’这一列和我们UK雨量数据集的对应列进行了合并。 ?

    2.9K00
    领券