首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我的Python分析成长之路9

1.pandas数据结构     在pandas中,有两个常用的数据结构:Series和Dataframe  为大多数应用提供了一个有效、易用的基础。     ...loc和iloc选择数据       loc方法是针对DataFrame索引名称的切片方法,如果传入的不是索引名称,那么切片操作无法执行。...loc使用方法:DataFrame.loc[行索引名称或条件,列索引名称,如果内部传递的是一个区间,则左闭右开。...15 print(group.cumcount()) #对每个分组中的成员进行标记 16 print(group.size()) #返回每个分组的大小 17 print(group.min())...14 print(group.cumcount()) #对每个分组中的成员进行标记 15 print(group.size()) #返回每个分组的大小 16 print(group.min())

2.1K11
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Pandas 50题练习

    Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法。这些练习着重DataFrame和Series对象的基本操作,包括数据的索引、分组、统计和清洗。...和age列 df.loc[:, ['animal', 'age']] # 方法二 # df[['animal', 'age']] 取出索引为[3, 4, 8]行的animal和age列 df.loc[..., 'python') df 对每种animal的每种不同数量visits,计算平均age,即,返回一个表格,行是aniaml种类,列是visits数量,表格值是行动物种类列访客数量的平均年龄 df.pivot_table...sum(level=0) print(df1) 给定DataFrame,有列A, B,A的值在1-100(含),对A列每10步长,求对应的B的和 df = pd.DataFrame({'A': [1,2,11,11,33,34,35,40,79,99...有一些多余的标点符号,需要提取出正确的航司名称。

    3K20

    Python中 Pandas 50题冲关

    Pandas 是基于 NumPy 的一种数据处理工具,该工具为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法。...Python中的Numpy基础20问 参考资料 | 100-pandas-puzzles - GitHub | Pandas 百题大冲关 基本操作 导入 Pandas 库并简写为 pd,并输出版本号 import..., 'python') df 对每种animal的每种不同数量visits,计算平均age,即,返回一个表格,行是aniaml种类,列是visits数量,表格值是行动物种类列访客数量的平均年龄 df.pivot_table...sum(level=0) print(df1) 给定DataFrame,有列A, B,A的值在1-100(含),对A列每10步长,求对应的B的和 df = pd.DataFrame({'A': [1,2,11,11,33,34,35,40,79,99...有一些多余的标点符号,需要提取出正确的航司名称。

    4.2K30

    数据导入与预处理-第6章-02数据变换

    基于列值重塑数据(生成一个“透视”表)。使用来自指定索引/列的唯一值来形成结果DataFrame的轴。此函数不支持数据聚合,多个值将导致列中的MultiIndex。...pivot_table透视的过程如下图: 假设某商店记录了5月和6月活动期间不同品牌手机的促销价格,保存到以日期、商品名称、价格为列标题的表格中,若对该表格的商品名称列进行轴向旋转操作,即将商品名称一列的唯一值变换成列索引...,商品一列的唯一数据变换为列索引: # 将出售日期一列的唯一数据变换为行索引,商品一列的唯一数据变换为列索引 new_df = df_obj.pivot(index='出售日期', columns='商品名称...在使用agg方法中,还经常使用重置索引+重命名的方式: # 初始化分组DF import pandas as pd df_obj = pd.DataFrame({'a': [0, 1, 2, 3, 4...实现哑变量的方法: pandas中使用get_dummies()函数对类别数据进行哑变量处理,并在处理后返回一个哑变量矩阵。

    19.3K20

    如何在 Pandas 中创建一个空的数据帧并向其附加行和列?

    Pandas是一个用于数据操作和分析的Python库。它建立在 numpy 库之上,提供数据帧的有效实现。数据帧是一种二维数据结构。在数据帧中,数据以表格形式在行和列中对齐。...在本教程中,我们将学习如何创建一个空数据帧,以及如何在 Pandas 中向其追加行和列。...然后,通过将列名称 ['Batsman', 'Runs', 'Balls', '5s', '4s'] 传递给 DataFrame 构造函数的 columns 参数,我们在数据帧中创建了 6 列。...Python 中的 Pandas 库创建一个空数据帧以及如何向其追加行和列。...我们还了解了一些 Pandas 方法、它们的语法以及它们接受的参数。这种学习对于那些开始使用 Python 中的 Pandas 库对数据帧进行操作的人来说非常有帮助。

    28030

    pandas分组聚合转换

    () )['Height'].mean( ) Groupby对象 最终具体做分组操作时,调用的方法都来自于pandas中的groupby对象,这个对象定义了许多方法,也具有一些方便的属性。...对象有一些缺点: 无法同时使用多个函数 无法对特定的列使用特定的聚合函数 无法使用自定义的聚合函数 无法直接对结果的列名在聚合前进行自定义命名 可以通过agg函数解决这些问题: 当使用多个聚合函数时,需要用列表的形式把内置聚合函数对应的字符串传入...gb.agg(['sum', 'idxmax', 'skew']) # 对height和weight分别用三种方法聚合,所以共返回六列数据 对特定的列使用特定的聚合函数 可以通过构造字典传入agg中实现...方法 变换函数的返回值为同长度的序列,最常用的内置变换函数是累计函数:cumcount/cumsum/cumprod/cummax/cummin,它们的使用方式和聚合函数类似,只不过完成的是组内累计操作...']],因此所有表方法和属性都可以在自定义函数中相应地使用,同时只需保证自定义函数的返回为布尔值即可。

    12010

    30 个小例子帮你快速掌握Pandas

    通过将isna与sum函数一起使用,我们可以看到每列中缺失值的数量。 df.isna().sum() ? 6.使用loc和iloc添加缺失值 我正在做这个例子来练习loc和iloc。...尽管我们对loc和iloc使用了不同的列表示形式,但行值没有改变。原因是我们使用数字索引标签。因此,行的标签和索引都相同。 缺失值的数量已更改: ? 7.填充缺失值 fillna函数用于填充缺失值。...12.groupby函数 Pandas Groupby函数是一种通用且易于使用的函数,有助于获得数据概览。它使探索数据集和揭示变量之间的潜在关系变得更加容易。 我们将为groupby函数写几个例子。...method参数指定如何处理具有相同值的行。first表示根据它们在数组(即列)中的顺序对其进行排名。 21.列中唯一值的数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。...低基数意味着与行数相比,一列具有很少的唯一值。例如,Geography列具有3个唯一值和10000行。 我们可以通过将其数据类型更改为category来节省内存。

    10.8K10

    python数据分析——数据分类汇总与统计

    本文将介绍如何使用Python进行数据分类汇总与统计,帮助读者更好地理解和应用数据。 首先,我们需要导入一些常用的Python库,如pandas、numpy和matplotlib等。...语法 Pandas中的Groupby是一个强大的功能,用于将数据集按照指定的条件进行分组和聚合操作。它类似于SQL中的GROUP BY语句,可以对数据进行分组并对每个组进行统计、计算或其他操作。...示例 【例4】对groupby对象进行迭代,并打印出分组名称和每组元素。 关键技术:采用for函数进行遍历, name表示分组名称, group表示分组数据。...关键技术: groupby函数和agg函数的联用。 在我们用pandas对数据进行分组聚合的实际操作中,很多时候会同时使用groupby函数和agg函数。...crosstab函数还可以使用其他参数来进一步定制交叉频率表,例如设置行和列的名称、使用聚合函数计算交叉表的值等。你可以根据具体需求来使用这些参数。

    10410

    使用pandas分析1976年至2010年的美国大选的投票数据

    我会从不同的角度来处理这些数据,试图了解人们是如何投票的。 我将使用pandas库进行数据分析和可视化,因此这也是使用pandas的函数和方法的良好实践。...在分析中有一些多余的列。例如state_fips、state_cen和state_ic代表什么可能不是很确定,但它们可以作为一个指示器或状态的唯一值。 我们可以通过检查和比较这些列中的值来确认。...() yearly_votes.head() 我们可以对“year”列应用groupby函数,并对“totalvotes”列中的值求和,从而得到每次选举的总票数。...我使用了pandas内置的绘图函数来绘制结果。它比使用Matplotlib的pyplot接口更简单,但是对plot的控制较少。 除了1996年和2012年,参加投票的人数一直在稳步增加。...我们需要将名称与总统dataframe中的名称进行格式的统一。

    2.1K30

    初学者使用Pandas的特征工程

    我们将讨论pandas如何仅凭一个线性函数使执行特征工程变得更加容易。 介绍 Pandas是用于Python编程语言的开源高级数据分析和处理库。使用pandas,可以轻松加载,准备,操作和分析数据。...我们可以将任何函数传递给apply函数的参数,但是我主要使用lambda函数, 这有助于我在单个语句中编写循环和条件。 使用apply和lambda函数,我们可以从列中存在的唯一文本中提取重复凭证。...在我们的大卖场销售数据中,我们有一个Item_Identifier列,它是每个产品的唯一产品ID。此变量的前两个字母具有三种不同的类型,即DR,FD和NC,分别代表饮料,食品和非消耗品。...我们将频率归一化,从而得到唯一值的和为1。 在这里,在Big Mart Sales数据中,我们将对Item_Type变量使用频率编码,该变量具有16个唯一的类别。...这就是我们如何创建多个列的方式。在执行这种类型的特征工程时要小心,因为在使用目标变量创建新特征时,模型可能会出现偏差。

    4.9K31

    python数据分析——数据分类汇总与统计

    本文将介绍如何使用Python进行数据分类汇总与统计,帮助读者更好地理解和应用数据。 首先,我们需要导入一些常用的Python库,如pandas、numpy和matplotlib等。...【例4】对groupby对象进行迭代,并打印出分组名称和每组元素。 关键技术:采用for函数进行遍历, name表示分组名称, group表示分组数据。...关键技术: groupby函数和agg函数的联用。在我们用pandas对数据进 行分组聚合的实际操作中,很多时候会同时使用groupby函数和agg函数。...具体的办法是向agg传入一个从列名映射到函数的字典: 只有将多个函数应用到至少一列时,DataFrame才会拥有层次化的列 2.3.返回不含行索引的聚合数据 到目前为止,所有例中的聚合数据都有由唯一的分组键组成的索引...五、数据采样 Pandas中的resample()是一个对常规时间序列数据重新采样和频率转换的便捷的方法,可 以对原样本重新处理,其语法格式如下: resample(rule, how=None,

    82910

    《Pandas Cookbook》第07章 分组聚合、过滤、转换1. 定义聚合2. 用多个列和函数进行分组和聚合3. 分组后去除多级索引4. 自定义聚合函数5. 用 *args 和 **kwargs

    # 按照AIRLINE分组,使用agg方法,传入要聚合的列和聚合函数 In[3]: flights.groupby('AIRLINE').agg({'ARR_DELAY':'mean'}).head(...# 用列表和嵌套字典对多列分组和聚合 # 对于每条航线,找到总航班数,取消的数量和比例,飞行时间的平均时间和方差 In[12]: group_cols = ['ORG_AIR', 'DEST_AIR'...更多 # Pandas默认会在分组运算后,将所有分组的列放在索引中,as_index设为False可以避免这么做。...# Pandas使用函数名作为返回列的名字;你可以直接使用rename方法修改,或通过__name__属性修改 In[28]: max_deviation....更多 # 自定义一个返回DataFrame的函数,使用NumPy的函数average计算加权平均值,使用SciPy的gmean和hmean计算几何和调和平均值 In[82]: from scipy.stats

    8.9K20

    Python pandas十分钟教程

    Pandas是数据处理和数据分析中最流行的Python库。本文将为大家介绍一些有用的Pandas信息,介绍如何使用Pandas的不同函数进行数据探索和操作。...包括如何导入数据集以及浏览,选择,清理,索引,合并和导出数据等常用操作的函数使用,这是一个很好的快速入门指南,如果你已经学习过pandas,那么这将是一个不错的复习。...import pandas as pd pandas在默认情况下,如果数据集中有很多列,则并非所有列都会显示在输出显示中。...您可以使用以下代码行来设置输出显示中的列数: pd.set_option('display.max_columns', 500) 500表示列的最大宽度。....unique():返回'Depth'列中的唯一值 df.columns:返回所有列的名称 选择数据 列选择:如果只想选择一列,可以使用df['Group'].

    9.8K50

    数据科学的原理与技巧 三、处理表格数据

    ,我们将使用第一章中的婴儿名称数据集。...,并且学会了在pandas中表达以下操作: 操作 pandas 读取 CSV 文件 pd.read_csv() 使用标签或索引来切片 .loc和.iloc 使用谓词对行切片 在.loc中使用布尔值的序列...对行排序 .sort_values() 分组和透视 在本节中,我们将回答这个问题: 每年最受欢迎的男性和女性名称是什么?...现在让我们使用多列分组,来计算每年和每个性别的最流行的名称。 由于数据已按照年和性别的递减顺序排序,因此我们可以定义一个聚合函数,该函数返回每个序列中的第一个值。...总结 我们现在有了数据集中每个性别和年份的最受欢迎的婴儿名称,并学会了在pandas中表达以下操作: 操作 pandas 分组 df.groupby(label) 多列分组 df.groupby([label1

    4.6K10

    Pandas 秘籍:6~11

    类似地,AB,H和R列是两个数据帧中唯一出现的列。 即使我们在指定fill_value参数的情况下使用add方法,我们仍然缺少值。 这是因为在我们的输入数据中从来没有行和列的某些组合。...七、分组以进行汇总,过滤和转换 在本章中,我们将介绍以下主题: 定义聚合 使用函数对多个列执行分组和聚合 分组后删除多重索引 自定义聚合函数 使用*args和**kwargs自定义聚合函数 检查groupby...does not reduce 另见 Pandas 聚合的官方文档 使用函数对多个列执行分组和聚合 可以对多列进行分组和聚合。...准备 在本秘籍中,我们使用groupby方法执行聚合,以创建具有行和列多重索引的数据帧,然后对其进行处理,以使索引为单个级别,并且列名具有描述性。...我们对count列不感兴趣,因此仅选择mean列来形成条形。 此外,在使用数据帧进行打印时,每个列名称都会出现在图例中。

    34K10

    30 个 Python 函数,加速你的数据分析处理速度!

    Pandas 是 Python 中最广泛使用的数据分析和操作库。它提供了许多功能和方法,可以加快 「数据分析」 和 「预处理」 步骤。...12.Groupby 函数 Pandas Groupby 函数是一个多功能且易于使用的功能,可帮助获取数据概述。它使浏览数据集和揭示变量之间的基本关系更加容易。 我们将做几个组比函数的示例。...让我们创建一个列,根据客户的余额对客户进行排名。...但是,它可能会导致不必要的内存使用,尤其是当分类变量具有较低的基数。 低基数意味着列与行数相比几乎没有唯一值。例如,地理列具有 3 个唯一值和 10000 行。...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡列的直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多的小数点。

    9.4K60
    领券