为每个groupby df运行一个函数，并使用该函数生成的值(没有df返回) - 腾讯云开发者社区

、、、

我试图用特定子集的前一行的值填充新列(前一次)中的每一行(满足条件时)。问题是，如果我中断内核并检查值，就可以了。但是，如果它运行到末尾，那么新列中的所有行都没有填充。如果上一行不存在，我将用第一个值填充它。 Name First round Previous time Runner 1 2 2 Runner 2 5 5 Runner 3 5 5 Runner 1 6 2 Runner 2 8 5 Runner 3 4 5 R

浏览 2提问于2020-05-16得票数 0

回答已采纳

2回答

Pandas groupby:如何使用移位值

、、

我有一个数据集，表示在不同位置重复发生的事件。 df = [Datetime location time event] 每个位置可以有8-10个重复的事件。我试图做的是建立一些信息，了解两个事件之间有多长时间。(它们可能不是同一个事件) 我可以通过将df拆分成子dfs并单独处理每个位置来做到这一点。但是看起来groupby应该比这个更聪明。这也是假设我知道所有的位置，这些位置可能因文件而异。 df1 = df[(df['location'] == "Loc A")] df1['delta'] = df1['time'

浏览 2提问于2014-08-12得票数 1

1回答

如何在Pandas中通过分区计数

、、

下面窗口函数的pandas等效项是什么 COUNT(order_id) OVER(PARTITION BY city) 我可以得到row_number或排名 df['row_num'] = df.groupby('city').cumcount() + 1 但是，像示例中那样按城市计算分区是我要查找的内容

浏览 1提问于2019-09-11得票数 4

2回答

使用Apply、Lambda和Group函数更新熊猫数据帧列

、、

我有一个数据框架，在下面的屏幕截图中提到的格式。列‘候选人赢’只有‘损失’作为所有行的列值。如果相应行的'%得票‘按’选区‘列分组时最大，则我希望将’候选人Won‘列更新为'won’值，否则该值应为'loss‘。我希望通过使用apply、lambda和group的组合来实现这个结果，而不是使用循环/迭代。 DataFrame：(df_andhrapradesh) 📷 下面的代码适用于数据框架中的特定选区： df_amalapuram=df_andhrapradesh[df_andhrapradesh['Constituency']=='Amala

浏览 0提问于2020-06-06得票数 1

3回答

pandas的输出不显示groupby列

、

我正在尝试理解均值和函数与累积函数之间的区别。当我运行groupby，然后运行mean时，我得到了id列和值的平均值。但是，当我使用cumprod运行它时，没有groupby列。如何确保可以获得分组依据的列 x = [.25,.23,.55,.89,-.90,-.04] id = ['a', 'a', 'a', 'b', 'b', 'b'] df.groupby('id').mean() df.groupby('id').cumprod()

浏览 1提问于2017-04-22得票数 2

2回答

如何获取python中每块数据的平均列

、

下面是我所处理的数据的一个例子：此数据示例是每次运行的缩短版本。这里的跑道大约有4排长。在一个典型的数据集中，它们的长度在50-100行之间。还有44种不同的跑步方式。因此，我的目标是在第2阶段中获得最后4行的平均值，现在我正在实现这一目标，但它根据整个电子表格的这些条件来获取平均值。我希望能够得到这些平均值的每一次‘运行’。 df["Run"] = pd.DataFrame({ "Run": ["Run1.1", "Run1.2", "Run1.3", "Run2.1", &

浏览 3提问于2022-01-10得票数 0

4回答

每一独特值取样一条记录(熊猫、蟒蛇)

、、、、

我使用python-大熊猫的dataframes，我有一个包含用户和他们数据的大数据。每个用户可以有多个行。我想要每个用户一行的示例。我目前的解决方案似乎没有效率： df1 = pd.DataFrame({'User': ['user1', 'user1', 'user2', 'user3', 'user2', 'user3'], 'B': ['B', 'B1', 'B2', '

浏览 4提问于2016-07-15得票数 20

回答已采纳

2回答

Pandas groupby操作返回对象，但没有可视对象

、

刚接触Pandas (2天)，并在我的学院奖数据集上运行了以下groupby命令。 df[(df.Award == 'Best Actress') & (df.Winner == 1.0)].groupby('Name') 我收到了以下输出，通常在可视化之前，但这次不是。 <pandas.core.groupby.DataFrameGroupBy object at 0x1166b8cc0> 我期待的是所有获得奥斯卡最佳女主角的女演员的名单，按她们各自的名字分组。为什么不是chart呢？编辑：数据如下所示。。。 Year

浏览 1提问于2017-04-26得票数 1

1回答

熊猫不同计数栏

、

受 post的启发，我希望在每个分组中获得一个数据帧中的值的不同计数，并在数据帧中创建一个具有不同计数值的列。如下所示：原始数据框架： import pandas as pd df = pd.DataFrame( {'A' : ['foo', 'foo', 'foo', 'foo', 'bar', 'bar', 'bar', 'bar'], 'B' : ['foo', '

浏览 3提问于2016-01-06得票数 2

回答已采纳

1回答

从字典创建数据时发生的StopIteration错误

、、、

因此，我从字典中创建了一个数据格式来执行时间序列练习。当我创建dataframe (我是在Google中这样做)时，该单元格正确运行。但是当我做full_df.head()的时候。我得到了StopIteration错误。有人知道为什么会这样吗？这就是我所拥有的： df = pd.read_csv('all_stocks_5yr.csv', usecols=["close", "Name"]) gp = df.groupby("Name") my_dict = {} for record in gp: if reco

浏览 5提问于2021-11-25得票数 0

回答已采纳

1回答

使用熊猫筛选功能后返回列表

、

我是新来的潘达斯，有一些非常困难的问题。我想要做的是根据各个列中的一个值对示例进行分组，然后根据该列值运行一个api调用。那部分已经完成了。在创建对象之后，我想返回对象并将其存储到局部变量中，这证明了这是一个具有挑战性的部分。下面是我的数据集，它包含在.CSV文件中。 Sample Sample Type Tumor Age Location 1 Blood Benign 43 LUNG 2 FFPE Benign 23 LUNG 3 Blood Benign 1

浏览 1提问于2018-08-27得票数 1

回答已采纳

1回答

Dataframe创建列，包含总销售额

、、、、

我有个游戏销售表。当一个游戏被卖出几次时，它的ID会出现好几次。有了value_counts，我知道每个游戏卖出多少次。但是，我想在我的表中创建一个列来说明这一点，我希望有以下列：游戏/购买日期/客户/价格/游戏类型/销售总数这个是可能的吗？更新： “常客” 非常感谢您高效而详细的回答！

浏览 1提问于2022-04-01得票数 0

2回答

DataFrames -将一个大的Pandas分成几个小Pandas，并通过一个函数运行每个Pandas

、

我有一个巨大的数据集，大约有60000个数据。我首先会使用一些条件对整个数据集进行groupby，接下来我想做的是将整个数据集分离到条件内的许多小数据集，并自动对每个小数据集运行一个函数，以获得每个小数据集的参数。我不知道该怎么做。有没有什么代码可以让它成为可能？这就是我的东西 Date name number 20100101 John 1 20100102 Kate 3 20100102 Kate 2 20100103 John 3 20100104 John 1 我想把它分成两个小的 D

浏览 9提问于2016-09-10得票数 3

2回答

如何删除值小于每个组最大值的百分比的行

、、、

我有一只熊猫的数据，上面有一个信号的时间序列，上面显示了一些峰值： Time (s) Intensity Peak 1 1 a 2 10 a 3 30 a 4 100 a 5 40 a 6 20 a 7 2 a 1 20 b 2 100 b 3 300 b 4 80

浏览 4提问于2022-02-04得票数 1

回答已采纳

1回答

熊猫:通过在多列之一上使用通用键函数进行分组

、、

我浏览了一段时间，但是找不到用函数对熊猫数据帧进行分组的方法。例如，假设： df2=df1.groupby(df1['ColA']).sum() 我们能否定义一个函数f，以便： df2=df1.groupby(f).sum() 这个函数f也能接受来自df1的几列的输入吗？例如，如果分组所依据的键是df‘’ColA‘和df’‘ColC’的函数，那么怎么办？我在这方面找不到任何例子，尽管似乎应该可以从的API文档中找到。谢谢

浏览 4提问于2014-08-25得票数 2

回答已采纳

2回答

熊猫-如何去除重复的基础上的另一个系列？

、、、

我有一个名为Date、Element和Data_Value的系列数据--它们的类型分别是string、string和numpy.int64。Date的日期为yyyy；元素有字符串，表示TMIN或TMAX，它表示Data_Value是特定日期的最低温度还是最高温度；最后，Data_Value级数只是表示实际温度。日期序列具有同一日期的多个副本。例如，在2005-01-01年，温度栏有19个条目，数值从28开始，一直持续到156。我想要创建一个只有日期和最高温度的新数据--我最终也想要一个TMIN值，但是我想如果我能做一个，我就能找出另一个。我将在下面发布一些带有解释的psuedocode，以

浏览 1提问于2020-02-07得票数 0

回答已采纳

2回答

我如何在这个带有熊猫的数据框中找到唯一的值？

、

我有一个数据框(附图以供参考)，这是多伦多社区的场馆列表。列出了每个地点的邻域名称，以及地点类型(我去掉了其他所有内容)。我需要找到一种方法来获取每个社区中独特的场地类型的总数。例如，如果有8家咖啡店和2家餐厅，返回值应该是2。如果有1家咖啡店，1家餐厅和1家自助洗衣店，返回值应该是3，依此类推。有人知道怎么做吗？ ?

浏览 19提问于2020-09-08得票数 0

回答已采纳

2回答

在Pandas中查找具有完整属性集的分组项

、

我有个数据： In [1]: df = DataFrame({'A': [1, 1, 2, 2, 2], 'B': ['AF', 'PLAT', 'AF', 'PLAT', 'ROOT'], 'C': [.0015, .0018, .0021, .0011, .0008] }) In [2]: df Out[2]: A B C 0

浏览 3提问于2016-03-15得票数 0

回答已采纳

2回答

编码会议#9 -高阶函数系列-是不同的会议年代吗？(Python) Pandas解决方案？

、

我已经在CodeWars上完成了前面提到的卡塔，并想知道是否有一个更优雅的解决方案使用熊猫？我正在考虑使用pd.Series.between()，但无法找到解决方案。下面是CodeWars Kata提示符：将给您一个对象数组(PHP中的关联数组)，它表示已经注册参加您正在组织的下一次编码会议的开发人员的数据。您的任务是返回：的确，如果来自以下所有年龄组的开发人员都已注册:青少年、20多岁、30多岁、40多岁、50多岁、60岁、70岁、80岁、90岁、百岁(至少100岁)。否则就是假的。例如，给定以下输入数组： list1 ={“firstName”：“Harry”，“lastName”

浏览 11提问于2022-01-31得票数 0

2回答

Python向Dataframe添加

、

我一直在做一件小熊猫的工作。我试图做的和失败的是做一个简单的数据质量报告。我有一个Dataframe，列如下所示 columns = ['Feature','count', 'Miss.%', 'Card.', 'Min', '1st Qrt.', 'Mean', 'Median', '3rd Qrt', 'Max', 'Std Div'] df2 = pd.DataFrame(index=cont_index, col

浏览 3提问于2016-02-14得票数 0

回答已采纳

1回答

pandas中的group by操作

、

我正在阅读使用python进行图书数据分析的pandas中的groupby函数。在这里作者如下所述。 In [13]: df = DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], ....: 'key2' : ['one', 'two', 'one', 'two', 'one'], ....: 'data1' : np.random.randn(

浏览 1提问于2017-06-08得票数 1

3回答

基于列值的数据分割

、、、

我有一个包含多个ID的df，我试图对数据运行一个回归，我需要能够将它按ID拆分，以便将回归应用于每个ID：示例DF (这只是一个样本，实际数据更大) 我试图将ID保存在如下列表中： id_list = [] for data in df['id'].unique(): id_list.append(data) 列表输出为1,2,3 然后我试着用它来排序DF： def create_dataframe(df): for unique_id in id_list: df = df[df['Campaign ID'] =

浏览 0提问于2020-12-10得票数 0

回答已采纳

1回答

Dask/Pandas是否支持基于依赖于其他行的复杂条件删除组中的行？

、、、

我正在使用Dask处理一堆csv格式的基于文本的记录，我正在学习使用它来解决内存问题太大的问题，并且我正在尝试过滤最符合复杂条件的组中的记录。到目前为止，我所确定的处理此问题的最佳方法是基本上使用Dash将记录分组为比特大小的块，然后用Python编写适用的逻辑： def reduce_frame(partition): records = partition.to_dict('record') shortlisted_records = [] # Use Python to locate promising looking records.

浏览 6提问于2019-07-25得票数 0

2回答

在枢轴期间过滤Pandas枢轴表

、

让我们假设我们有以下数据框架df df = pd.DataFrame({'food' : ['spam', 'ham', 'eggs', 'ham', 'ham', 'eggs', 'milk'], 'sales' : [10, 15, 12, 5, 14, 3, 8]}) 我想把这些数据用于显示sales之和，food，，但前提是大于12。由此产生的枢轴表如下所示：未经过滤的df： food sum

浏览 5提问于2022-03-11得票数 2

回答已采纳

1回答

如何有选择地过滤大熊猫群体中的元素

我想有选择地删除大熊猫组的元素，根据它们在组内的特性。下面是一个示例:删除“A”列中值最高的行以外的所有元素 >>> dff = pd.DataFrame({'A': np.arange(8), 'B': list('aabbbbcc'), 'C': list('lmnopqrt')}) >>> dff A B C 0 0 a l 1 2 a m 2 4 b n 3 1 b o 4 9 b p 5 2 b q 6

浏览 4提问于2014-04-12得票数 2

回答已采纳

2回答

比较或区分两个熊猫栏元素

、

我对Pandas很陌生(但不是数据科学和Python)。这个问题不是关于如何解决这个具体的问题，而是如何处理这样的问题，熊猫路。请随意改进这个问题的标题。因为我不知道什么是正确的条款。这是我的MWE #!/usr/bin/env python3 import pandas as pd data = {'A': [1, 2, 3, 3, 1, 4], 'B': ['One', 'Two', 'Three', 'Three', 'Eins', 'Four&

浏览 5提问于2021-05-25得票数 1

回答已采纳

1回答

熊猫:如何在drop_duplicates中按栏选择第一或最后一栏

、、

如下图所示，名称必须保留在fisrt中，团队必须保存在last中。如何使用.drop_duplicates()或其他方式完成这一任务？ name team ... 0 john a ... 1 mike b ... 2 john c ↓ name team ... 0 john c ... 1 mike b ... -关于评论的补充说明 .groupby('name').agg({'team': 'last', 'country': 'first'}

浏览 3提问于2022-06-04得票数 0

回答已采纳

1回答

按列分组，然后在pandas中的组内执行特定操作

、、

这是我正在处理的数据的一个子集：我有一个问题，我需要按"MATNR_BATCH“列进行分组，然后在该组中执行操作。我需要确保组/子集在"FULL_IND“列中具有相同数量的'FULL‘和'NF’值。在本例中，我希望保留前两行，并删除"FULL_IND“列中具有”FULL“值的所有其他行。我希望保留具有'FULL‘值的行，该行与具有'NF’的行最接近。邻近度由"BIN_LOC“列决定。在本例中，第一行的"BIN_LOC“为34，第二行(带有'NF')的"BIN_LOC”为38。有没有人

浏览 1提问于2020-07-23得票数 0

1回答

GroupBy电源查询结果是否与pandas.groupby结果不匹配？

、、、、

我正在尝试“移植”一个从PowerQuery到Python的行分组转换。在PowerQuery中，查询如下所示： #"Grouped Rows" = Table.Group(Source, {"col1", "col2", "col3", "col4"}, {{"Count", each Table.RowCount(_), type number}}), #"Removed Columns" = Table.RemoveColumns(#"Grouped Rows"

浏览 11提问于2019-11-02得票数 0

2回答

除在python中使用均值、中值外，计算丢失的值

、、

我听说这意味着，中位数不是计算缺失值的最佳方法，为什么会这样呢？在我的场景中，我有这样的数据 Brand|Value A|2, A|NaN, A|4, B|8, B|NaN, B|10, C|9, C|11 如果使用平均计算，数据将是 Brand|Value A|2, A|7.3, A|4, B|8, B|7.3, B|10, C|9, C|11 这对品牌B来说是有意义的，但如果品牌A是7.3，那就没有意义了，因为品牌A的价值大约在2和8左右，还有其他方法来填补基于品牌的缺失值吗？这是一个只有2个特性的数据示例，其中有一个可能有缺失值模式的特性，如果有20个特性，并且可能有多个功能可以更好

浏览 0提问于2018-09-02得票数 2

回答已采纳

2回答

使用Pandas运行总引用多列

、、

我有一个(希望很简单)的问题。我正在尝试使用Pandas在Python中创建一个运行总计。比如说我有工人，他们每天都在跟踪他们的工作时间。我想知道他们每天工作的总时间是多少小时。假设我有一个Pandas，有四列，如下所示(为了便于阅读，在几天之间增加了水平空间)： Day Worker HoursWorked HoursWorkedThusFar 1 1 0 0 1 2 2 0 1 3 4

浏览 1提问于2020-09-09得票数 0

回答已采纳

1回答

Python来自重复条目的多列的最高值

、、

我有以下df： A B C entry1 10 3 entry1 7 5 entry1 2 NaN entry2 1 1 entry2 2 4 entry2 3 3 ... 在A栏中，我有重复的条目，我有兴趣为每个条目从B和C列中选择最高的值。如果存在NaN值，则会覆盖最高值。示例：对于entry1，我希望在df中保留列B中的值10和列C中的NaN值。对于entry2，我希望在df中保留列B中的值3和列C中的4值。我想对这些值进行排序，然后选择最后一个值，如下所示： df = df.sort_values(by=

浏览 0提问于2021-08-08得票数 1

回答已采纳

1回答

如何根据基于行的计算将新列添加到我的Pandas DataFrame中？

、

假设我有一个带有两列的Pandas DataFrame : 1) user_id，2)步骤(其中包含给定日期的步骤数)。现在，我要计算前一个度量中的步骤数和步骤数之间的差异(在我的DataFrame中，度量保证是有序的)。因此，这基本上可以归结为在我的DataFrame中附加一个额外的列，其中此数据帧的行值与这一行中的列'steps‘的值相匹配，减去上面行中的'steps’列的值(如果这是第一行的话)。更复杂的是，我希望计算每个user_id的这些差异，因此我希望确保不减去具有不同user_id的两行的步骤值。有人知道如何用Python2.7和Panda完成这个任务吗？举

浏览 2提问于2015-01-23得票数 0

回答已采纳

1回答

使用sklearn查找每组数据帧的系数

、、

我有一个包含一些值和多个组的数据帧(df1)。我想对每个组执行线性回归，这样我就可以使用系数来完成df2，然后将它们连接起来(df3)。到目前为止，我还在处理我的整个数据帧 from sklearn import linear_model import pandas as pd def ols (X, y): return linear_model.LinearRegression().fit(X, y) X = df1[["day"]] y = df1["value"] results = linear_model.LinearRegressio

浏览 2提问于2019-05-03得票数 0

1回答

了解群体与熊猫

、、

我试着用电影数据集上的熊猫来找出评论最多的10个评论家，并把他们的名字列在一个表格里，上面写着他们工作的杂志的名字，以及他们的第一次和最后一次评论的日期。电影数据集从csv文件开始，在excel中，该文件如下所示： critic fresh date publication title reviewtext r.ebert fresh 1/2/12 Movie Mag Toy Story 'blahblah' n.bob rotten 4/2/13 Time Ghostbusters &#

浏览 1提问于2014-03-08得票数 0

回答已采纳

1回答

根据其他列的条件创建新列

、、、

我有如下所示的df Year IndexDate WorkDate ID Name 0 2019 NaT 2018-12-12 9265299 FV 1 2019 2019-01-09 2019-01-09 9265299 OM 2 2020 2020-11-27 2020-11-27 9962241 PM 3 2020 NaT 2020-11-27 9962241 Other 4 2020 NaT 2021-01-19 9962241 Other df.dtypes Out[50]

浏览 10提问于2022-09-08得票数 1

回答已采纳

1回答

如何在循环中多次过滤数据(多个条件和一对多的数据格式结果)？

、、、

我有一个dataframe，和一个包含一些数据列的列表。我需要获取这些列的所有不同值，并存储它们，并为原始dataframe中的每个不同值的组合创建一个唯一的数据帧。然后，将这些数据文件导出到excel中(这没有问题)。例如：该表将被转换为一个dataframe，让我们假设列的列表是'OS'，'Work‘。最后，我将有一个字典，其中每个列作为键，每个不同的值作为该键的一组值，如下所示： data = {'OS': {'IOS', 'Linux', 'Windows'}, 'Work':

浏览 3提问于2022-09-22得票数 1

回答已采纳

3回答

如何在Pandas‘groupBy中得到最后一组？

、

我希望我的小组中的最后一组是： df.groupby(pd.TimeGrouper(freq='M')).groups[-1]: 但这就产生了错误： KeyError：-1 使用get_group是无用的，因为我不知道最后一个组的值(除非有特定的方法获得这个值？)。另外，我可能想得到最后两个组，等等。我该怎么做？

浏览 6提问于2015-02-24得票数 6

回答已采纳

1回答

循环通过Dataframe以按城市删除异常值(调用函数)

、、、

我有个数据框里面有日期，城市，销售额- Date City Sales 2008-01-01 C1. 10000 2008-01-01 C2 2000 2008-01-02 C1. 13000 2008-01-02 C2 5000 and so on... 我有一个异常值函数- def detect_discrete_outliers(data): outliers=[] threshold=3 mean = np.mean(data) std =np.std(data)

浏览 25提问于2021-08-11得票数 1

回答已采纳

1回答

Python -计算扩展收益的标准差

、、、、

我目前使用的是一个超大型数据文件(CRSP每日股票文件)，它包括超过16000家公司的每日回报，总共有850万行数据。在Python中运行for循环大约需要2周时间。目标是计算每个公司的收益波动(标准差)。对于每个月底，我需要从年初到那个月的回报的标准差。我试图在一个图表(8月数据的标准差的green=example)中可视化我的意思：我的输入DataFrame显示在下一张图片中。"PERMNO“是确定的标识符，" date”是每日返回的日期，"RETX“是每日返回的日期。输出数据帧应仅以月频率表示。因此，每个公司在一年内有12个标准差。我每年都

浏览 9提问于2022-03-04得票数 0

1回答

熊猫:将列中的值设置为该列的子集的最大值，用于dataframe中的每个子集。

、

很抱歉，如果标题很难解析，下面是我要做的事情：如果我有以下数据 run group value 0 1 A 3 1 2 A 2 2 3 A 3 3 4 B 5 4 5 B 1 5 6 C 3 6 7 C 4 我希望将每个运行的输出列设置为每个组的最大值，因此如下所示 run group value 0 1 A 3 1 2 A 3 2 3

浏览 2提问于2021-09-10得票数 2

回答已采纳

2回答

基于不同列的熊猫插值NaNs

、、

我有以下DataFrame (摘录) data = pd.DataFrame([[0., -10.88948939, 74.22099994, 1.5, "NW", 0], [0.819377018, -10.88948939, 74.22099994, 1.5, "NW", 1], [8.47965933, -10.88948939, 74.22099994, 1.5, "NW", 10], [15.38036833, -10.88948939, 74.22099994, 1.5, "NW", 20]], columns=[&#

浏览 2提问于2014-12-01得票数 12

回答已采纳

2回答

基于条件最小/最低点值的数据过滤(python/大熊猫)

、、、、

对于具有与ID对应的值的给定时间序列数据集：我想要A，找到每个分组I的最小值，然后有条件地检查该分组列表的后续值是否大于最小值(minPlus2)，例如： df = pd.DataFrame({'id': [1,1,1,1,1,1,1,2,2,2,2,2,2], 'value'[8,5,3,2,1,2,3,13,8,5,3,2,1]}) 患者ID 1符合值(df.value[6]) 2大于最小/最低点值1 (df.value[4])的标准。患者ID 2不符合标准，因为在其最低值(df.value[12])之后没有数字。到目前为止，我已经能够通过以下方法找到最

浏览 0提问于2018-07-25得票数 0

回答已采纳

2回答

.transform('first')做什么？

、、

有人帮我弄到了密码。我理解代码中的所有内容，除了最后一行.transform('first')。我知道它做了什么(我可以看到它)，但我想确切地知道它在后面做了什么才能得到这个结果。这是我理解的代码的一部分： df['Date'] = pd.to_datetime(df['Date']) df['YEP'] = ( df[::-1].loc[df['Type'].eq('Budget')] .groupby(df['Date'].dt.yea

浏览 0提问于2020-01-12得票数 1

2回答

熊猫群值和数据集的返回观测计数

、

我有如下所示的数据集： id value a 0 a 0 a 0 a 0 a 1 a 2 a 2 a 2 b 0 b 0 b 1 b 2 b 2 我希望按" id“列进行分组，并获取"value”列中的观察数，并在原始数据集中返回一个新列，该列计算"value“观察在每个id中发生的次数。我正在寻找的输出示例在“output”列中表示： id value output a 0 4 a 0

浏览 0提问于2019-06-05得票数 0

回答已采纳

2回答

如何从Pandas Dataframe计算信息的Shannon熵？

、、

我有一个dataframe df，它包含从单个Name_Give到另一个Name_Receive的事务信息，如下所示： df Name_Give Name_Receive Amount 0 John Tom 300 1 Eva Tom 700 2 Sarah Tom 100 3 John Tom 200 4 Tom Eva 700 5 John

浏览 1提问于2018-11-06得票数 7

回答已采纳

1回答

从数据帧中的索引中获取最小值

、、

我有这样的数据。 column1 column2 1 2 1 3 1 4 2 3 2 1 2 4 我希望获得column1中每个值的最小值。所以我的产出是 column1 column2 1 2 2 1 当我尝试代码时 df = df[df['column2'].isin(df.groupby('column1').idxmin(['column2']).values)] 它给了我一个空的数据，如

浏览 1提问于2018-10-25得票数 1

回答已采纳

1回答

群函数的系列查询

、、

我有一个名为active的数据框架，它有10个唯一的POS列值。然后对POS值进行分组，并对OPW列进行平均规范化，然后将规范化值存储为独立列['resid']。如果我对POS值进行分组，那么新的活动数据帧的POS列不应该只包含唯一的POS值吗？？例如： df2 = pd.DataFrame({'X' : ['B', 'B', 'A', 'A'], 'Y' : [1, 2, 3, 4]}) print df2 df2.groupby(['X']).sum(

浏览 3提问于2015-01-21得票数 1

回答已采纳

2回答

我如何能够基于标签将DataFrame分割成多个DataFrames，然后对每个DataFrame进行计算？

、、

我有以下DataFrame：我试图为df1'Tub‘中的每个唯一值创建一个DataFrame。现在，我正在创建一个字典，并试图在每个新的DataFrame实例中添加一个匹配的Tub。我认为我的逻辑是正确的。 tub_df = {} tubs = [] for tub in df1['Tub']: if tub not in tubs: tubs.append(tub) #['Tub 1', 'Tub 2', 'Tub 3'] for tub_name in tubs: fo

浏览 0提问于2020-08-13得票数 0

回答已采纳

2回答

用numpy/熊猫中的组集合替换组的值

、、、

我在一个numpy数组X中有一个图像： array([[ 0.01176471, 0.49019608, 0.01568627], [ 0.01176471, 0.49019608, 0.01568627], [ 0.00784314, 0.49411765, 0.00784314], ..., [ 0.03921569, 0.08235294, 0.10588235], [ 0.09411765, 0.14901961, 0.18431373], [ 0.10196078, 0.152

浏览 2提问于2016-03-01得票数 2

回答已采纳