python pandas -处理嵌套groupby的最佳方式

Python pandas是一个开源的数据分析和数据操作工具库，提供了丰富的数据结构和数据处理功能。而"处理嵌套groupby的最佳方式"涉及到了pandas中的groupby操作以及嵌套的groupby操作。

在pandas中，groupby操作是一种基于某些列的数据分组和聚合的方式。而嵌套的groupby则是在已经分组的数据上再次进行groupby操作。下面是处理嵌套groupby的最佳方式的具体步骤和示例代码：

步骤1：导入pandas库

import pandas as pd

步骤2：读取数据并进行初始的groupby操作

data = pd.read_csv('data.csv')  # 读取数据文件
grouped = data.groupby(['col1', 'col2'])  # 根据col1和col2列进行分组

步骤3：定义自定义的聚合函数

def custom_agg(x):
    # 自定义的聚合逻辑
    return {'mean': x.mean(), 'sum': x.sum()}

步骤4：对分组后的数据进行嵌套的groupby操作并应用自定义的聚合函数

nested_grouped = grouped.groupby('col3').agg(custom_agg)

在上述示例代码中，通过groupby操作将数据按照'col1'和'col2'列进行分组。然后，在分组的基础上再次进行groupby操作，按照'col3'列进行分组，并应用自定义的聚合函数'custom_agg'。这样就实现了嵌套的groupby操作。

对于pandas中的groupby操作，可以使用的相关函数和方法包括：

groupby：基于某些列进行分组
agg：对分组后的数据进行聚合操作
apply：对分组后的数据应用自定义的函数
transform：对分组后的数据进行转换操作
size：计算每个分组的大小
count：计算每个分组的非缺失值数量
sum、mean、median、max、min等：计算每个分组的汇总统计量

对于嵌套的groupby操作，可以使用以上的相关函数和方法进行操作，只需要在第二次groupby操作中指定嵌套的列，并应用相应的聚合函数。

在实际应用中，处理嵌套groupby的最佳方式取决于具体的需求和数据结构。可以根据不同的场景选择不同的函数和方法进行操作。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云数据万象：https://cloud.tencent.com/product/ci
腾讯云大数据分析平台DataWorks：https://cloud.tencent.com/product/dw

注意：本回答未涉及亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等品牌商，仅提供了与问题相关的信息和腾讯云产品链接。

页面内容是否对你有帮助？

有帮助

没帮助

在pandas.DataFrame.groupby函数中，可以同时设置参数"by=ndarray“和"level”吗？

、、

在Python-pandas.DataFrame.groupby(by=ndarray/list，axis=1，level=1)中，这种调用形式会引发一个错误。对于by=np.array()，出现了一个错误，即TypeError: 'numpy.ndarray' object is not callable。而对于by=list，则出现了一个Keyerror。请看下面的示例代码- import numpy as np import pandas as pd columns = pd.MultiIndex.from_arrays([['US', 'US&

浏览 1提问于2021-02-07得票数 1

1回答

熊猫数据框架:在不给出值的情况下在数据框架上创建pivot_table

、、、、

我有一个文本文件，其中包含以下格式的数据 101.223.129.4 918801641445^0^paus 101.223.129.4 918801641445^0^german 101.223.129.4 918801641445^0^photo 101.223.129.4 918801641445^0^polish 101.223.129.4 918801641445^0^find 101.223.129.4 918801641445^0^extra 101.223.129.4 918801641445^0^access 101.223.129.4 918801641445^0^priv

浏览 0提问于2015-10-08得票数 1

回答已采纳

3回答

“熊猫群”系列不起作用

、

我不能做一个熊猫系列的对象群。DataFrames很好，但我似乎不能用系列赛来做群比。有人能让这件事成功吗？ >>> import pandas as pd >>> a = pd.Series([1,2,3,4], index=[4,3,2,1]) >>> a 4 1 3 2 2 3 1 4 dtype: int64 >>> a.groupby() Traceback (most recent call last): File "<stdin>", line 1, i

浏览 7提问于2013-07-29得票数 10

回答已采纳

1回答

Pandas groupby给出了"keyError"，即使密钥存在

、、、、

我是Python的新手，对于我的一个项目，我需要将csv转换为嵌套Json。在网上搜索，我发现pandas在这种情况下是有帮助的。我遵循了Convert CSV Data to Nested JSON in Python中给出的appraoch，但是我得到了一个keyError exception KeyError: 'state' df info <class 'pandas.core.frame.DataFrame'> RangeIndex: 4 entries, 0 to 3 Data columns (total 3 columns): c

浏览 302提问于2019-06-29得票数 1

回答已采纳

1回答

熊猫群通过不与错误数量的项目通过4，安置意味着1。

、

因此，当我试图输入更多的函数参数时，我的gorupby似乎不起作用，而我试图在groupby应用中应用该函数。我在这里发现了一些类似于我的场景的东西:在一节中，‘使用加权平均值’‘分组数据。我尝试使用我的函数，其中需要来自df的2列作为参数来进行计算。我的代码 import pandas as pd from io import StringIO text = """Ticker Date Adj_Close Volume MACD emaSlw emaFst MACDsig MACDperc A 18-07-2016 46.8 1362900.0 0.55 4

浏览 1提问于2016-07-20得票数 1

回答已采纳

1回答

Dask/Pandas是否支持基于依赖于其他行的复杂条件删除组中的行？

、、、

我正在使用Dask处理一堆csv格式的基于文本的记录，我正在学习使用它来解决内存问题太大的问题，并且我正在尝试过滤最符合复杂条件的组中的记录。到目前为止，我所确定的处理此问题的最佳方法是基本上使用Dash将记录分组为比特大小的块，然后用Python编写适用的逻辑： def reduce_frame(partition): records = partition.to_dict('record') shortlisted_records = [] # Use Python to locate promising looking records.

浏览 6提问于2019-07-25得票数 0

1回答

可变索引？Python Pandas Dataframe ValueError:无法从重复轴重新编制索引

、、、

我有一个包含多个重复值作为索引的dataframe，例如：我需要将350包含的值拆分为351,352,353等等...我想要更改索引的值，以便为它们提供唯一的值，以便对它们进行唯一的操作。我尝试更改索引，但得到以下错误：我的代码的目的是重新建立索引，并只获取列表中的值。做这件事最好的方法是什么？有没有办法改变索引值，这样我就可以处理数据框了？ my_finallist = [1,2,3,4,5,6,7] data_backup.reindex(my_finallist) ------------------------------------------------------

浏览 3提问于2021-06-22得票数 1

1回答

如何在pandas中应用groupby，随着时间的推移进行特定于客户的查询

、、

我有一些随时间推移的交易数据，我正在尝试在Pandas中应用groupby，这样我就可以建立平均收入支出，每年客户的平均交易数量，但不知道如何在Pandas中做到这一点。数据如下所示： CustomerID Year Revenue 123 2018 2000 126 2019 157 123 2019 563 674 2018 320 我尝试过不同的groupbys，例如： df.groupby(["CustomerID", "Year"]).median() 但这只会返回一个海量的数据帧。

浏览 9提问于2020-03-09得票数 0

1回答

模式聚合在熊猫中不起作用(必须产生聚合值)

、、、

运行此程序时： import pandas as pd df = pd.DataFrame(dict(x=[1, 1, 2, 2, 3, 3], group=["a", "a", "a", "a", "b", "b"])) df.groupby(["group"]).agg({ "x": [pd.Series.mode, "sum"] }) 返回此错误： ValueError Tr

浏览 9提问于2022-08-31得票数 0

回答已采纳

1回答

如何解决SpecificationError:不支持嵌套重命名

、、、、

我正在使用agg函数，并将参数用作我的数据帧上的字典。但是我得到了嵌套重命名程序不支持的错误。我正在执行google colab notebook中的代码。代码： gb_agg = gb.agg({'Yield' : {'Count' : lambda x: len(x.unique())}}) diff_counties_2013 = gb_agg[gb_agg['Yield']['Count'] > 1].index.get_level_values('CountyName').values gb_ag

浏览 1提问于2021-06-10得票数 0

2回答

如何与groupby一起使用numpy函数？

、、、

我有一个函数，它接受dataframe列并根据特定条件返回一个布尔掩码： def is_downtrending(close): out = np.full(close.shape, False) for i in range(close.shape[0]): # if we've had two consecutive red days if (close[i] < close[i - 1]) and (close[i - 1] < close[i - 2]): out[i] = True

浏览 1提问于2022-10-19得票数 0

2回答

Pandas:如何同时使用groupby、sum和multiply

、

我有一个如下的DataFrame： shop | item_price | item_sold A | 123 | 1 B | 921 | 2 A | 28 | 4 ... 我想知道每个店铺的总收入。在SQL中，它看起来像这样： SELECT shop, SUM((item_price * item_sold)) as revenue FROM table GROUP BY shop 我想用Pandas在Python中实现它。我试过了： revenue_by_shop = table.groupby

浏览 33提问于2020-09-18得票数 1

回答已采纳

1回答

熊猫群按性能/组合2个功能

、、、、

我正在学习python，并试图了解数据查询的最佳实践。下面是一些要测试的虚拟数据(客户销售) import pandas as pd df = pd.DataFrame({'Name':['tom', 'bob', 'bob', 'jack', 'jack', 'jack'],'Amount':[3, 2, 5, 1, 10, 100], 'Date':["01.02.2022", "02.02.2022",

浏览 1提问于2022-03-04得票数 1

回答已采纳

2回答

如何创建一个for循环来填充DataFrame？

、、

从一开始我就感谢所有寻求帮助的人。我已经开始学习python，并偶然发现了一个利用python的机会，这是我在工作中的优势。 Im基本上是制作了一个脚本，用来读取google文件，将其导入熊猫并清理数据。最后，我只想知道列中代理的名称，以及列下面的所有值，这样我就可以获得所有代理的平均时间，但是我很难用列表理解/ for循环来实现它。这就是我清理完后DataFrame的样子这是我试图运行的代码对不起，代码太乱了。 agentes_unique = list(df['Agente'].unique()) agentes_duplicated = df['A

浏览 4提问于2022-05-27得票数 0

1回答

ValueError:错误数量的项目通过47，放置意味着1和KeyError：‘大小’

、、

这是我的数据形状 a.shape (4899, 48) 然后我做了 a['size'] = a.groupby(['customer_id']).transform(np.size) 一个错误的结果是 --------------------------------------------------------------------------- KeyError Traceback (most recent call last) ~/anaconda3/lib/python3.6/site-

浏览 0提问于2018-05-24得票数 0

回答已采纳

2回答

pandas:使用numba的groupby应用

、、、

使用pandas v1.1.0。 pandas文档中有一个很好的例子，介绍了如何使用numba来加速rolling.apply()操作 import pandas as pd import numpy as np def mad(x): return np.fabs(x - x.mean()).mean() df = pd.DataFrame({"A": np.random.randn(100_000)}, index=pd.date_range('1/1/2000', periods=100_000, freq=

浏览 5提问于2020-08-05得票数 4

1回答

熊猫:使用群表或枢轴表时按顺序排列日期

、、、、

我有一只熊猫DataFrame (名为"df1")，它的结构如下(尽管我有很多个月的每日数据)： date WeightedReturn 0 15/07/2015 0.005128 1 15/07/2015 0.002844 2 15/07/2015 0.003055 3 15/07/2015 -0.001481 4 15/07/2015 -0.000741 5 15/07/2015 -0.000741 6 16/07/2015

浏览 2提问于2015-10-11得票数 1

回答已采纳

1回答

熊猫df到JSON有重复的键

、、、

我正在尝试将具有唯一密钥的df转换为JSON文件。pandas dataframe看起来如下所示。 import pandas as pd d = {'col1': [1,2,2,2,3,3], 'col2': ['a','b','c','','e','f'], 'col3': ['one','two','three','four','five','six'

浏览 4提问于2020-11-13得票数 0

回答已采纳

1回答

AttributeError：“时间戳”对象没有属性“read”

、、

我正在尝试使用pandas和groupby从date字段提取月份，以便进行进一步的操作。第40行是我试图应用dateutil提取年份、月、日的地方。我的代码： df = pandas.DataFrame.from_records(defects, columns=headers) df['date'] = pandas.to_datetime(df['date'], format="%Y-%m-%d") df['date'] = df['date'].apply(dateutil.parser.parse, ye

浏览 2提问于2017-03-17得票数 1

4回答

熊猫:按自定义功能分组数据

、、、

我有一组字符串。我想按字符串的长度分组。这件事可以用 import pandas as pd data = 'aaa', 'bb', 'ccc', 'dd', 'eeee', 'ff' df = pd.DataFrame(data, columns=['string']) def length(index): return len(df.at[index, 'string']) for length, group in df.groupby(by=le

浏览 12提问于2020-05-18得票数 1

1回答

Python DataFrame - ValueError:要解压缩的值太多(应为2)

、、

Python 3.8 我是Python的新手，我需要在周五11/12/20之前交付这个项目。我有一个DataFrame，我必须打印保存在name_list中的列的“价格”键的平均值和标准差。下面是我写的代码： #Grouping by company, fuel type, aspiration, door number #Creating an empty DataFrame result = pd.DataFrame() #Saving all the prices values = df['price'].unique() name_list = ['CarN

浏览 87提问于2020-12-05得票数 0

回答已采纳

2回答

使用自定义列表操作功能的object.aggregate熊猫群

、、、

我有一个csv文件，如下所示 Hour,L,Dr,Tag,Code,Vge 0,L5,XI,PS,4R,15 0,L3,St,sst,4R,17 5,L5,XI,PS,4R,12 2,L0,St,v2T,4R,11 8,L2,TI,sst,4R,8 12,L5,XI,PS,4R,18 2,L2,St,PS,4R,9 12,L3,XI,sst,4R,16 我在我的ipython笔记本中执行以下脚本。 In[1] import pandas as pd In[2] df = pd.read_csv('/python/concepts/pandas/in.csv')

浏览 3提问于2015-12-06得票数 1

3回答

将组中项的长度/数目分配给新列

、、、

TLDR:我需要将每个组中的长度或项数添加到新的列中。如何才能做到这一点？我正在处理的实验结果包含了几次重复的结果(在相同的设置下重复相同的实验，以提高数据的统计弹性)。每个实验都有一个标识符，而每一个重复/运行都有一个“内部”的索引(请参阅代码片段以获得澄清)。由于即将进行数据处理，并且为了显示每次实验运行的总数(例如运行1/3、运行2/3、运行3/3)，我需要添加两列一个“人类可读的”运行编号(基本上是一个基于一个的运行索引)和每次实验的总运行次数。通过增加每次运行的run_id，可以很容易地实现第一个目标： import io import pandas as

浏览 5提问于2021-04-06得票数 2

回答已采纳

1回答

相当于大熊猫的ave

、、

我的帖子类似于另一篇这样的文章：，但是我收到了一个错误。假设：我有一个数据文件df A B C D 0 foo one -2.0 0.5 1 bar one -1.5 -1.5 2 foo two -0.5 -0.8 3 bar three -0.0 0.7 4 foo two -1.5 0.9 5 bar two 1.5 0.6 6 foo one -0.0 -0.4 7 foo three 0.5 1.8 我想要创建另一个列E，它具有c' each group when group

浏览 3提问于2015-03-05得票数 2

回答已采纳

2回答

熊猫数据按时间间隔分组

、、

我有一个熊猫DataFrame，有两个栏(时间，心率)进口。时间来自MM:SS.s格式(用于minutes:Seconds.miliseconds)。我正在尝试将这一次转换为秒的浮点数(例如0.6s或65.3s) (稍后用于折叠成10s窗口)。例如： import pandas as pd hr_raw = pd.read_csv('hr_data.csv') hr_raw.dropna(inplace=True) print(hr_raw.head()) Time HR bpm 0 00:00.6 97.0 1 00:01.0 92.0

浏览 0提问于2017-09-18得票数 1

回答已采纳

2回答

我正在尝试从csv文件创建一个表，为我提供一个变量的比例

、、

下面的代码是我所拥有的，但它抛出了一段代码，说明没有要聚合的数值类型。代码： import pandas import numpy as np link = 'https://raw.githubusercontent.com/dvanderelst-python-class/python-class/spring2021/assignment_data/young_people_survey.csv' data = pandas.read_csv(link,index_col=0) data.groupby(['Age','Smoking']

浏览 0提问于2021-03-24得票数 0

3回答

熊猫.groupby将返回一个地址

、、

我真的不明白为什么在为“课程”创建一个带有groupby的Dataframe时，我会得到一个入口位置输出？代码： import pandas as pd technologies = ({ 'Courses':["Spark","PySpark","Hadoop","Python","Pandas","Hadoop","Spark","Python","NA"], 'Fee' :[22000,250

浏览 22提问于2022-10-22得票数 0

回答已采纳

1回答

如何实现我自己的describe()函数，以便在resample()中使用

、

我正在处理表示向量(幅度和方向)的时序数据。我想要我的数据，并使用describe函数作为how参数。但是，describe方法使用标准平均值，我想使用一个特殊的函数来平均方向。因此，我在pandas.Series.describe()实现的基础上实现了我自己的describe方法 def directionAverage(x): result = np.arctan2(np.mean(np.sin(x)), np.mean(np.cos(x))) if result < 0: result += 2*np.pi return result d

浏览 1提问于2013-02-13得票数 5

回答已采纳

1回答

熊猫: pandas._libs.hashtable.Int64HashTable.get_item

、

我有以下在数据帧df上运行的代码 print df categories = df['my_classification'].unique() for c in categories: print c win = df[df.result == 'Won'][df['my_classification'] == c]['prob'][0] print type(win) lost = df[df.result == 'Lost'][df['my_classifi

浏览 1提问于2018-04-21得票数 0

1回答

熊猫不可能在csv中的每一个领域进行分组。

、、

我有下面的csv文件 Hour, L, Dr, Tag, Code, Vge 0, L5, XI, PS, 4R, 15 5, L5, XI, PS, 4R, 12 2, L0, St, v2T, 4R, 11 8, L2, TI, sst, 4R, 8 12, L5, XI, PS, 4R, 18 我使用下面的python code.The的想法是围绕熊猫群的概念。 # !/usr/bin/env python3.4 # -*- coding: utf-8 -*- import pandas as pd imp

浏览 0提问于2015-12-02得票数 0

回答已采纳

1回答

在列组中计数天数

、

受到这个问题的启发- 达菲 d = {'item_number':['A','A','A','A','B','B','B','B'], 'Comp_ID':['Be','Be','Be','De','Ce','Ce','Ce','Ce'], 'date':['201

浏览 4提问于2020-02-05得票数 2

回答已采纳

2回答

根据字数将列拆分为未知数量的列- Pandas

、

我有一个pandas数据框，它的一个列包含一些字符串。我想根据字数将该列拆分成未知数量的列。假设我有DataFrame df： Index Text 0 He codes 1 He codes well in python 2 Python is great language 3 Pandas package is very handy 现在，我想将text列划分为多个列，每个列包含2个单词。 Index 0 1 2 0

浏览 17提问于2020-06-29得票数 3

回答已采纳

2回答

sum()得到一个意外的关键字参数'axis‘

、

clean_df = clean_df.groupby(by=index_keys).sum(axis=1, numeric_only=True) 抛出 sum() got an unexpected keyword argument 'axis' 我从相关问题中了解到，这与更新软件包有关。如何找出哪个包裹有问题？ $ pip show pandas Name: pandas Version: 1.2.0 >python -m pip check No broken requirements found.

浏览 18提问于2021-01-03得票数 1

回答已采纳

2回答

在Python中按列分组时出现键错误

、

我有一个包含2012年和2013年温度数据的数据框架。我想计算一下这两年的平均气温。我使用： import pandas as pd df = pd.read_csv('data.csv') year_avg = df['temperature'].groupby('year').mean().sort_values(by='year').reset_index() Python抛出一个错误: KeyError：'year‘ 以下是列温度和年份的数据类型温度1904年非空int64 1904年你能给出一些提示，为什

浏览 3提问于2021-06-30得票数 1

1回答

使用pandas python筛选多个单元格并将其合并为一个单元格Excel

、、

我有一个包含多列的表，并且在所有列上重复数据，只有一列除外(Address)。 Last Name First Name Food Address Brown James Apple 1 Brown Duke Apple 2 William Sam Apple 3 Miller Karen Apple 4 William Barry Orange 5 William Sam Orange 6 Brown Jame

浏览 41提问于2020-11-18得票数 0

2回答

带Pandas面板的非唯一轴群

、

我有一个带有非唯一major_axis的熊猫面板，我正在尝试使用groupby对非唯一行进行求和，但是我收到了一个错误，说明major_axis是不可迭代的。我已经搜索了堆栈溢出和留言板，但是面板似乎没有数据格式那么广泛地使用。下面是一个产生错误的示例： import pandas as pd import datetime as dt import dateutil.relativedelta as rd import numpy as np items = ['A','B'] minor_axis = ['x','y']

浏览 5提问于2013-12-23得票数 2

回答已采纳

1回答

如何在python中创建一个带有上一个周期值的diff列？

我只是尝试在我的数据框中创建一个列，其中包含列值与上个月的相同列的差值。如果上个月不存在，不要计算差额。 df_ranking['cat_race'] = df_ranking.groupby(df_ranking['ID'], df_ranking['DATE'])['POINTS'].shift(1) 但是我得到的错误信息是： Traceback (most recent call last): File "C:/Users/jhoyo/PycharmProjects/Tennis-Ranking/venv/ra

浏览 9提问于2019-08-22得票数 0

回答已采纳

1回答

熊猫群的混乱--难以驾驭的类型

、、、、

使用Pandas数据帧按特性分组，我希望按列c_b分组，并计算列c_a和列c_c的唯一计数。我的预期结果是，预期结果， c_b,c_a_unique_count,c_c_unique_count python,2,2 c++,2,2 遇到关于unhashable type的奇怪错误，有人有什么想法吗？谢谢。输入文件， c_a,c_b,c_c,c_d hello,python,numpy,0.0 hi,python,pandas,1.0 ho,c++,vector,0.0 ho,c++,std,1.0 go,c++,std,0.0 源代码 sample = pd.read_csv('

浏览 1提问于2016-08-27得票数 0

回答已采纳

1回答

python大熊猫做群比计数时出错

、、

当对多列进行groupby计数时，我会得到一个错误。这是我的dataframe，也是一个简单地标记不同的'b‘和'c’组的例子。 df = pd.DataFrame(np.random.randint(0,2,(4,4)), columns=['a', 'b', 'c', 'd']) df['gr'] = df.groupby(['b', 'c']).grouper.group_info[0] print df a b c

浏览 0提问于2013-07-02得票数 10

2回答

dask.dataframe.groupby.DataFrameGroupBy错误

、、、、

我在两个列上使用了groupby ( df有大约70列，除日期时间外，所有列都是浮动的)来获得dask数据文件： result_ddf = base_ddf.groupby(["firts_integer_column","second_integer_column"]) 我不能使用结果，因为它是以某种奇怪的格式： dask.dataframe.groupby.DataFrameGroupBy 如何将结果作为dataframe使用，因为当我尝试.head()或.compute()时，我会得到错误。代码1 result_ddf.get_partition(1)

浏览 3提问于2021-01-26得票数 1

回答已采纳

1回答

Pandas:将groupby输出作为数据框

、、、、

我尝试在我的数据框中查找每个版本组的quantile(.25)，如下所示： a=df.groupby('version')['duration'].quantile(.25) a version duration 4229 1451.00 6065 213.75 9209 386.50 2304 664.50 6389 1.00 7952 153.25 8833 1.00 4799 612.50 3457 762.00 9069 602.50 841

浏览 5提问于2018-03-06得票数 1

回答已采纳

1回答

pandas.core.base.SpecificationError:使用partial作为agg函数时，函数名称必须是唯一的

、

重现问题： import pandas as pd from functools import partial def quantile_builder(portion, x): print(x) return x.quantile(portion) q90 = partial(quantile_builder, 0.90) q95 = partial(quantile_builder, 0.95) data = [('a', 1), ('a', 1),('b', 1),('a', 3),('b

浏览 52提问于2020-04-02得票数 0

回答已采纳

1回答

如何根据列名通过方法重采样Pandas多索引数据帧

、、

这里是一个带有多索引列的Pandasv0.14.0数据帧。 > import pandas as pd > import numpy as np > > rng = pd.date_range('1/1/2001', periods=6, freq='H') > mi = [(dt, i) for dt in rng for i in range(2)] > f = pd.DataFrame(np.random.randn(len(mi), 2), > index = pd.MultiIndex.from_tuples

浏览 1提问于2014-06-27得票数 1

回答已采纳

2回答

在两个不同的文件中转储和加载dill (泡菜)

、、、

我认为这对许多懂得如何处理泡菜的人来说是至关重要的。然而，在尝试了几个小时之后，我仍然无法很好地完成任务。我有以下代码：在第一个文件中 import pandas as pd names = ["John", "Mary", "Mary", "Suzanne", "John", "Suzanne"] scores = [80, 90, 90, 92, 95, 100] records = pd.DataFrame({"name": names, "score":

浏览 5提问于2016-07-19得票数 2

回答已采纳

1回答

Pandas组示例错误

我试图复制Wes McKinney关于Pandas的书中的一个例子，代码在这里(它假设所有的名字数据文件都在names文件夹下) # -*- coding: utf-8 -*- import numpy as np import pandas as pd years = range(1880, 2011) pieces = [] columns = ['name', 'sex', 'births'] for year in years: path = 'names/yob%d.txt' % year frame

浏览 3提问于2013-01-13得票数 0

回答已采纳

2回答

Pandas groupby操作返回对象，但没有可视对象

、

刚接触Pandas (2天)，并在我的学院奖数据集上运行了以下groupby命令。 df[(df.Award == 'Best Actress') & (df.Winner == 1.0)].groupby('Name') 我收到了以下输出，通常在可视化之前，但这次不是。 <pandas.core.groupby.DataFrameGroupBy object at 0x1166b8cc0> 我期待的是所有获得奥斯卡最佳女主角的女演员的名单，按她们各自的名字分组。为什么不是chart呢？编辑：数据如下所示。。。 Year

浏览 1提问于2017-04-26得票数 1

1回答

移除pandas列中仅相互存在的重复字母，Python

、

从这个问题：Python: Best Way to remove duplicate character from string答案： ''.join(ch for ch, _ in itertools.groupby(string_to_remove) 我知道如何删除重复的字母只存在于彼此相邻的位置，如何将此解决方案应用于pandas中的列？ df： df=pd.DataFrame({'A':['ODOODY','LLHHEELLO'],'B':['NNMminee','DDasdss&

浏览 9提问于2019-06-24得票数 1

回答已采纳

2回答

如何在数据集上使用pandas找到中位数？

、

我有数据帧数据，它有3列-日期，段和指标。我正在做以下工作： data = pandas.read_csv("Filename.csv") ave = data.groupby('Segment').mean() #works ave = data.groupby('Segment').median() #gives error ave['median'] = data.groupby('Segment').median() Traceback (most recent call last): File &#

浏览 3提问于2012-10-25得票数 1

2回答

从多列中将pandas数据框导出到嵌套字典

、、、

这是一个与类似的问题但在这种情况下，我想要一些不同的东西。我有下一个数据帧示例： from pandas import DataFrame df = DataFrame([ ['A', 123, 1], ['B', 345, 5], ['C', 712, 4], ['B', 768, 2], ['B', 768, 3], ['A', 123, 9],

浏览 18提问于2020-02-05得票数 2

回答已采纳

1回答

在包含行数的数据框中添加新列

、、

我有一个名为：oppty_oppline_sacc的数据帧，格式如下： opp_id$ sacc_id$ 001 AAB 002 AAB 003 BBC .. .. 我想添加一个名为nb_opportunity的新列，其中包含每个opp_id$的sacc_id$数量。所以我这样做了： oppty_oppline_sacc['nb_oppline'] = oppty_oppline_sacc.groupby(['sacc_id$'],as_index=False)['opp_id

浏览 4提问于2019-03-14得票数 0