为什么在我执行groupby之后，我的数据帧会丢弃一个coulmn？(正在丢弃的列是我用来分组的列之一) - 腾讯云开发者社区

python、pandas、dataframe、pandas-groupby

这是一个基本的问题，所以事先道歉。我正在使用Pandas，并将数据分组如下： page_serp_df.groupby([page_serp_df.meta_keywords_1_length]).count()['keyword'] 这指的是以下内容：数据帧：page_serp_dfGrouping by列：meta_keywords_1_lengthCounting与过滤器：关键字列我不明白的是，为什么过滤条件必须是‘关键字’，即引号中的字符串？例如，这不起作用，而且对我来说非常违背直觉： page_serp_df.groupby([page_serp_df.meta

浏览 0提问于2020-09-23得票数 0

回答已采纳

2回答

Pandas: Groupby填充消失列

pandas

我有数据帧。我正在做一个groupby和一个ffill。张贴这篇文章，我看不到我分组的专栏。为什么？我能做些什么来缓解这种情况？我的代码如下： df.groupby(["col1"], as_index=False).fillna(method="ffill")

浏览 3提问于2021-05-01得票数 0

3回答

DataFrames -平均列数

python、pandas、numpy、dataframe

我在pandas中有以下数据框架 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我希望创建一个数据帧，其中包含列1和列2，列3和列4的平均值，等等。 ColumnAvg(12) ColumnAvg(34) 2 3 1.5 1.5 我用的是这个，但它是所有东西的平均值。 df.mean(axis=1) 有没有办

浏览 40提问于2020-09-20得票数 3

回答已采纳

1回答

使用pandas groupby.size()结果进行算术运算

python、pandas、group-by

我遇到了以下问题，不幸的是，我自己或我在stackoverflow上发现的类似问题都无法解决。为了简单起见，我将举一个简短的例子来说明我的问题：我得到了一个包含多列的Dataframe，其中一列表示用户的ID。可能发生的情况是，同一用户在此数据框中有多个条目： | | userID | col2 | col3 | +---+-----------+----------------+-------+ | 1 | 1 | a | b | | 2 | 1 | c |

浏览 0提问于2016-03-15得票数 0

3回答

来自两个csv文件的Pandas Groupby

python、pandas、pandas-groupby

因此，我正在做一个来自Datacamp的练习，它告诉您从两个文件中按地区汇总预期寿命。包含列的life_fname：“国家”、“预期寿命” 来源：包含列的regions_fname：'Country'，'Region‘ 来源： # Read life_fname into a DataFrame: life life = pd.read_csv(life_fname, index_col='Country') # Read regions_fname into a DataFrame: regions regions = pd.read_csv(r

浏览 4提问于2018-08-24得票数 2

2回答

Pandas dataframe:计算每个小时的值之和？

sorting、pandas、sum、line

我是Python的初学者，主要使用matlab。我在语法上有点问题。我正在使用一个由几列组成的熊猫数据帧"df“。在df中，有一列的time是一个值的字符串:df‘’Hour‘，还有一列的值是df' values’。我基本上想要计算每个不同小时的“值”的总和。这是我的方法。有没有人能给我一些建议，如何将这个基本的想法转化为干净的东西？一定有一种更简单的方法可以做到这一点！非常感谢你的帮助！ # first sort my dataframe by ascending hours df = df.sort(['Hour'],ascending=[1]) #

浏览 2提问于2015-06-28得票数 1

1回答

Pandas根据列值将特定行处的列设置为True

python、pandas

我有一个数据帧： 0 A B C D 1 3 5 1 True 2 4 2 1 True 3 3 5 0 False 我正在尝试做的是，如果A，B列的值在D列的任何地方配对在一起，有一个True将D列的所有行设置为True，其中A，B列配对保持为True。示例: Col A，B: 3，5。将Col D设置为True everywhere Col A，B= 3，5如果对于Col A，B= 3，5，Col D等于Anywhere True 我相信迭代数据帧很容易做到这一点，但我想不出一种使用pandas或numpy内置函数的方法。如果你知道一个方法，我将非常感谢如何做到这一点。

浏览 44提问于2021-05-06得票数 1

回答已采纳

1回答

在Pandas groupby中计算分组间的逐值平均值和逐值总和

python、pandas、pandas-groupby

假设我有一个这样的数据帧： cluster A B C a 1 2 3 a 10 20 30 a 100 200 300 b 4 5 6 b 40 50 60 b 400 500 600 c 7 8 9 c 70 80 90 c 700 800 900 我想首先按集群对数据帧进行分组，然后计算A列和B列的逐值平均值，并计算各组中C列的逐值总和。预期结果： clu

浏览 8提问于2020-10-14得票数 3

回答已采纳

3回答

Pandas Groupby和在多列中查找重复项

python、pandas、dataframe、pandas-groupby

我有一个数据帧，我想按'Value_pack‘列分组，检查是否有2个或更多的'Value_pack’具有相同的'value‘和'discount’。(重复) 我想从数据帧中删除除第一次出现的重复项之外的所有重复项。输入数据帧： Value_pack value discount val 1 ADA 0 val 2 ADB 100 val 2 ADA 0 <---- duplicate val 3 ADA

浏览 2提问于2021-07-08得票数 0

1回答

Python Pandas按迭代分组

python、python-3.x、pandas、dataframe

在Python3.6中，我在for循环的帮助下遍历了pandas dataframe中的groupby列。这样做的问题是，如果我有很多数据，它就会变得很慢。这是我的代码： import pandas as pd dataDict = {} for metric, df_metric in frontendFrame.groupby('METRIC'): # Creates frames for each metric dataDict[metric] = df_metric.to_dict('records') # Converts dataframe

浏览 0提问于2018-03-01得票数 0

回答已采纳

1回答

pandas数据帧中的函数，用于复制R中的dplyr group_by(多变量)函数

python、r、pandas、dataframe

考虑一下这种情况：在dplyr中： df = df%>% group_by(a,b) %>% 表示数据帧首先按列a分组，然后按b分组。在我的例子中，我尝试先按group_name列、然后按user_name、再按type_of_work对数据进行分组。有三列以上(这就是我感到困惑的原因)，但我需要根据这三个标题以相同的顺序对数据进行分组。在这个阶段之后，我已经有了一个处理列的算法。我只需要一个算法来创建一个根据这三列分组的数据帧。在我的例子中，像dplyr函数一样保留序列是很重要的。我们在pandas data-frame中有类似的东西吗？

浏览 0提问于2017-06-19得票数 1

1回答

按分组和平均值绘制

pandas、matplotlib、pandas-groupby

我有一个包含多列和多行的数据帧。有一列，比如“name”，有几行带有名称，相同的名称被多次使用。其他行，比如'x'，'y'，'z'，'zz‘都有值。我想要按名称分组，并获取每个名称的每列(x，y，z，zz)的平均值，然后在条形图上绘制。

浏览 17提问于2020-07-20得票数 1

1回答

对Dataframe中具有匹配列标题的列求和

python、pandas、dataframe、group-by、pandas-groupby

我有一个数据帧，目前看起来有点像这样。 import pandas as pd In [161]: pd.DataFrame(np.c_[s,t],columns = ["M1","M2","M1","M2"]) Out[161]: M1 M2 M1 M2 6/7 1 2 3 5 6/8 2 4 7 8 6/9 3 6 9 9 6/10 4

浏览 10提问于2019-06-29得票数 2

回答已采纳

1回答

在给定行上遇到特定值时的Dataframe groupby

python、pandas、dataframe、group-by

我有一个数据帧，我想对它进行分组(或切片)。数据帧的形式为 A B C a b 1 a b 0 a b 1 a b 2 a b 0 a e 3 a e 3 f g 6 f g 7 f g 0 我想首先对列A和列B上的数据帧进行分组，然后，将每个分组按某个值进一步划分为具有连续行的较小分组。例如，在按列A和列B对数据帧进行分组后，每当我在列C中遇到0时，我希望在第三级上优化分组。因此，分组的数据帧如下所示 A B C a b 1 a b 0 a b 1 a b 2 a b 0 a e 3 a e 3 f g 6

浏览 3提问于2017-02-04得票数 2

2回答

Pandas按唯一列值拆分Dataframe

python、pandas、dataframe

我有一个要输出到名为'All Data‘的电子表格的Dataframe。假设此数据包含一个企业地址(街道、城市、邮政编码、州)。但是，我还想为包含完全相同的列的每个唯一状态创建一个工作表。我的基本想法是使用df.iterrows()遍历每一行，并通过将其附加到新的数据帧来划分数据帧，但这似乎非常低效。有没有更好的方法来做这件事？我找到了this answer，但这只是一个布尔索引。

浏览 12提问于2020-06-12得票数 1

回答已采纳

1回答

将数据帧拆分为两个Dataframe

scala、apache-spark

我有一个日期框架，其中有唯一的以及重复的记录在数字的基础上。现在，我想将数据帧拆分为两个数据帧。在第一个数据帧中，我只需要复制唯一的行，而在第二个数据帧中，我需要所有重复的行。例如 id name number 1 Shan 101 2 Shan 101 3 John 102 4 Michel 103 这两个拆分的数据帧应该如下所示独一无二 id name number 3 John 102 4 Michel

浏览 5提问于2016-08-24得票数 0

回答已采纳

3回答

Python:如何仅在Pandas中完全相似的情况下才合并重复行？

python、pandas、dataframe、merge

我有一个包含列Items和Ranges的数据帧。 Items Ranges 0 A 30 1 A 30 2 A -10 3 B 20 我想合并重复的行并添加范围值，但只针对完全相同的行。生成的数据帧应如下所示： Ranges Items A 60 A -10 B 20 我尝试了df2 = df1.groupby(['Items']).sum()，得到的结果如下： Ranges Items

浏览 19提问于2021-04-05得票数 1

回答已采纳

1回答

Python Dataframe如何使用groupby对行值求和

python、pandas、dataframe、group-by、pandas-groupby

我正在尝试对Dataframe中的列'Over_Id‘进行分组，并在分组时对列runs_scored的值求和。如果我使用groupby，我会丢失其他列例如： ball.groupby(['Match_Id','Innings_Id','Over_Id'])['runs_scored'].sum() 我能够获得我的runs_scored列，但在一个新的数据帧中，而不是在图像中看到的实际数据帧中。我不能merge，因为我添加的runs_scored列是基于3列的。简而言之，我希望每个Over_Id和它对应的ru

浏览 28提问于2017-12-31得票数 1

回答已采纳

2回答

星星之火--在大型数据文件上进行groupby和聚合时内存中的java堆。

apache-spark、pyspark、apache-spark-sql、parquet、pyspark-dataframes

我是新手，对Java没有编程经验。我正在使用pyspark处理一个非常大的时间序列数据集，其中有近4000列数值(浮点)列和数十亿行。我想用这个数据集实现以下目标：时间序列数据的间隔为10毫秒。我希望按1s间隔对数据进行分组，并使用平均值作为聚合函数。这里是我用来读取分区拼花文件的代码. df = (spark.read.option("mergeSchema", "true") .parquet("/data/")) 这里是我编写的用于groupby和聚合的代码： col_list = [... list of nu

浏览 2提问于2019-10-03得票数 1

1回答

连接数据帧和分类特征时的无序索引

python、pandas

下面的代码是为了让我的问题更容易理解而编写的。我想创建一个概览表，为此，我将遍历到列' order‘的所有唯一元素，为该列的每个唯一元素创建一个dataframe，然后我将使用.value_counts获得列'Status’的每个元素所表示的百分比，然后将其保存到另一个数据帧中，这是我的概览表。 Overview_Table = pd.DataFrame() for i, val in enumerate(df['Order'): dfi = df.loc[df['Order']==val] status = pd.DataFra

浏览 4提问于2019-10-25得票数 0

回答已采纳

1回答

如何在熊猫数据框中找到每个地区幸福感得分最低和最高的国家？

python、pandas、dataframe、pandasql

我有一个熊猫数据帧"df“，它的列是[Country,Region,Happiness Score,Year]。 df中包含3 years(2015,2016,2017)数据的165国家总数，因此df的长度为165*3=495。 df中总共有10唯一的区域，每个国家/地区在“region”列中都有自己的区域名称。我想要生成一个输出，显示每个唯一地区具有最小和最大幸福度得分的国家。例如，输出应该具有如下列：Region,Min Happiness Score,Max Happiness Score,Country具有该地区的最小幸福得分，国家具有该地区的最高幸福得分。由于有10个独

浏览 28提问于2020-05-11得票数 0

1回答

分组依据列表中的元素

python、pyspark、pyspark-sql

浏览 4提问于2019-10-09得票数 0

2回答

填写空白值

python、pandas

我有一个数据帧 A B 0 1 100.0 1 1 NaN 2 1 200.0 3 2 100.0 4 2 NaN 按A列分组，然后求B组各列的平均值，最后补全B列的空值。预期输出如下。 A B 0 1 100 1 1 150 2 1 200 3 2 100 4 2 100

浏览 0提问于2019-07-19得票数 0

2回答

Pandas将一个列与多个列关联按列的范围分组

python、pandas、pandas-groupby、correlation

假设我有一个类似于下面的数据帧(实际数据帧有数百万个观测值)，我如何获得信号列和返回列列表之间的相关性，然后按Signal_Up列进行分组？我尝试了pandas corrwith函数，但它没有给出signal_up列的相关分组 df[['Net_return_at_t_plus1', 'Net_return_at_t_plus5', 'Net_return_at_t_plus10']].corrwith(df['Signal_Up'])) 我正在尝试寻找signal列和由signal_up列的不同值分组的

浏览 46提问于2020-03-20得票数 0

回答已采纳

2回答

Pandas:基于列值合并2个数据帧；对于包含相同列值的多个行，将这些数据帧附加到不同的列

python、pandas

我有两个数据帧，dataframe1和dataframe2。它们都在特定的列中共享相同的数据，让我们分别将该列称为“share1”和“share2”，用于dataframe1和dataframe2。问题是，在dataframe1中，“share1”中只有一行具有特定值(让我们称之为“c34z”)，但在dataframe2中，“share2”列中有多行具有值“c34z”。我想要做的是，在新的合并数据帧中，当有新值时，我只想将它们放在一个新列中。因此，新数据帧中的列数将是'share2‘中特定值的最大重复数。对于在“share2”中只有唯一值的行，对于该行，其余添加的列将为空。

浏览 29提问于2019-04-21得票数 0

回答已采纳

1回答

pandas:多个解析日期的groupby结果的命名索引

python、pandas

因此，我有一个包含名为eventTime的datetime64列的数据框。如果我这样做了： df.groupby([df.eventTime.dt.year, df.eventTime.dt.month, df.eventTime.dt.day])['id'].count() 我得到了一个具有多个索引的数据帧，但所有数据帧的名称都与eventTime相同。类似于： eventTime eventTime eventTime 2017 2 23 1 3 2

浏览 0提问于2018-02-27得票数 0

回答已采纳

1回答

Pandas:按日期分组并查找每个日期的最小n

python、pandas、group-by

我有一个不同日期的数据帧，每个日期有一组ID。我想按日期分组，然后按该日期的某个列(数量)选择最小的3行。我正在尝试像下面这样的Pandas函数，但得到了多个错误。这似乎是一个可行的split-apply-combine方法--你能帮我理解我哪里错了吗？ df.groupby(['OriginalAmount']).apply(nsmallest(2)) df.groupby(['OriginalAmount']).nsmallest(2).groupby(level='OriginalAmount') 下面是示例数据帧，以及当n_smalle

浏览 6提问于2018-07-24得票数 3

回答已采纳

1回答

为什么linq在组中倒序

c#、linq

我有一个linq查询，它似乎正在倒转前面查询的几行中的一列： var dataSet = from fb in ds.Feedback_Answers where fb.Feedback_Questions.Feedback_Questionnaires.QuestionnaireID == criteriaType && fb.UpdatedDate >= dateFeedbackFrom && fb.UpdatedDate <

浏览 4提问于2017-06-21得票数 1

回答已采纳

1回答

Python Pandas- Groupby列以获取Pandas dataframe列中的两个峰值

python、pandas

我使用Python Pandas对一个名为"Trace“的列进行分组。对于每个跟踪，都有一个包含两个峰值的"Value“列，我试图将它们传输到不同的数据帧中。第一个问题是，当我使用groupby时，它不会保留我想要选择的值所在行的其余数据。例如，如果一个Pandas数据帧有6列，那么我想在使用groupby之后保留所有6列。第二个问题是，我想要的两个最大值不是列中的两个最大值，而是数据集中的“峰值”。例如，附加的图像显示了我想要其值的两个峰值。我希望将两个峰值中每个峰值的最大值导出到新的数据帧中，并将先前数据帧中其他列的行值导出到新的数据帧中。在下面的代码中，我希望按"

浏览 54提问于2018-08-05得票数 0

回答已采纳

2回答

使用3列数据操作pandas数据帧

python、pandas

我想不出一个办法来完成我的任务。我有一个包含3列的数据帧：length, reachcode, and year。我的示例dataframe： year reachcode length 1988 1000 1.2 1988 1000 2.0 1990 1000 0.3 1993 1000 0.5 我试图找到一个年份内的“reachcode”重复项，然后对该年的“长度”求和。之后，我想要比较不同年份的相同“reachcode”和“length”值的总和，并保留最小的值。因此，在示例数据帧中，将1998年和reachcode =

浏览 2提问于2016-08-23得票数 1

3回答

以熊猫为单位的累计计数

python、pandas、dataframe

我有一个包含不同列的数据框架。其中一列是用户的名称(请注意，这并不是唯一的，这意味着一个名称可能出现在不同的行中)，另一列是显示不同用户登录时间和日期的date_time。现在，我想构建一个新列，显示每个用户每天的累计登录次数。具体地说，我想添加一个新功能，它可以告诉我在同一天当前登录之前用户登录了多少次。我们应该遍历每一行，并根据用户名找到同一用户在同一天但在当前登录之前登录的次数，并对其进行计数。你能帮助我如何以最有效的方式写这篇文章吗？输入数据帧为： user date_time JK 2016-01-15 09:27:00 KL 2016-02-10 12:17:00

浏览 2提问于2020-03-29得票数 0

2回答

按ID合并数据帧的行以求和值，但保留分类数据

python、pandas

我正在清理数据，并有一个问题。我有一个联系人数据集和一个帐户数据集。我需要在“ContactID”上合并这两个数据帧。某些ContactID有多个帐户。因此，当我合并它们时，仍然有一些ContactID有多行。我需要组合这些行，以便将数字列相加在一起，同时仍然保留分类列。下面是一个示例：当我合并时： ContactID Value Type 1 800 A 1 70

浏览 24提问于2021-04-22得票数 0

1回答

Pandas:使用For循环迭代已排序的列的唯一值

python、pandas、data-analysis

我已经以排序的方式构造了一个数据帧，现在需要编写一个代码来迭代每个唯一项，因此假设数据集是 a,1 a,2 a,3 b,1 b,2 Id需要代码在df上循环，以便使用列中的唯一值形成2个新的dfs。 a,1 a,2 a,3 和 b,1 b,2 这里做了一些类似的事情:Pandas: iterate over unique values of a column that is already in sorted order 但是id需要一个for循环来获得我的函数的输出，在它运行完所有可能的数据帧之后。所以它看起来像这样，有2个函数f和g在列上运行因此，函数将在循环中定义 col a

浏览 20提问于2020-06-10得票数 0

1回答

如何对结构元素进行分组，并将其转换回具有相同架构的结构

scala、apache-spark、apache-spark-sql、spark-streaming

Spark 2.4.5在我的数据帧中，我有一个结构数组，该数组时不时地保存字段的快照。现在，我正在寻找一种方法，当数据发生变化时只有快照。我的模式如下 root |-- fee: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- updated_at: long (nullable = true) | | |-- fee: float (nullable = true) |-- status: array (nullable = true) |

浏览 2提问于2020-04-01得票数 1

1回答

我怎样才能提高groupby的速度？

pandas、dataframe、pandas-groupby

我有以下数据帧： import pandas as pd array = {'id': [1, 1, 1, 2, 2, 2, 3, 3], 'A': [False, False, True, False, False, False, True, True], 'B': [False, True, True, False, True, False, False, False]} df = pd.DataFrame(array) df 我想在一行中表示每个id。如果特定列上此id的所有值都为False，则其值应为False。如果至

浏览 44提问于2021-07-18得票数 3

回答已采纳

4回答

python dataframe:删除带条件的行

python、dataframe

我有一个熊猫数据帧： A B C 0 10006 3 9415640 1 10006 8 90 2 10010 10 8028 3 10010 12 1514942 4 10010 14 3098177 5 10010 15 271445 6 10010 16 1539139 7

浏览 101提问于2021-06-09得票数 0

回答已采纳

2回答

从索引绘制Dataframe时出现值错误

python、pandas、dataframe

我有一个数据帧，它的结构如下： A B Location1 1 Location2 2 1 3 2 4 在上面的示例中，列A是索引。我正在尝试使用索引和B列生成散点图。此数据帧是通过对另一个数据帧进行重采样和平均而生成的，如下所示： df = df.groupby("A").mean() 很明显，这将索引设置为与列A相等，我可以使用从这里改编的以下内容来绘制它。 df.reset_index().plot(x = "A",y = "B",kind="scatter", fi

浏览 2提问于2018-03-16得票数 0

2回答

如何合并特定列中具有相同值的行？

pandas、dataframe、merge、concatenation

我已经合并了两个数据帧，并希望合并具有重复location列的值的行，但合并performances列的值，同时保留纬度和经度值。我怎么能这样做呢？ 📷

浏览 68提问于2021-11-20得票数 0

回答已采纳

2回答

AttributeError:无法访问“”DataFrameGroupBy“”对象的可调用属性“groupby”“

python、pandas、dataframe、pandas-groupby

我有一个有3列的数据帧- 我想要在Chopstick长度的基础上对列进行分组，方法如下： meansByCL = df_chopstick.groupby('Chopstick.Length')['Food.Pinching.Efficiency'].mean().reset_index() 但这会抛出一个错误- AttributeError: Cannot access callable attribute 'groupby' of 'DataFrameGroupBy' objects, try using the &

浏览 0提问于2018-11-21得票数 5

回答已采纳

2回答

使用pandas计算比率

python、pandas、dataframe

我有一个这样的数据帧： id-customer status 1 Won 1 Won 2 Won 2 Won 3 Not won 我想添加一个新的列，它是一个获胜率，计算为："won“的数量除以由id-customer分组的总数。所以我应该有一个这样的数据帧： id-customer status winrate 1 Won

浏览 19提问于2019-02-19得票数 1

2回答

如何将现有列追加到另一列，使其与索引对齐？

python、pandas

我有三个数据帧，每个数据帧都有不同的列，但它们都有相同的索引和相同的行数(完全相同的索引)。我如何将它们组合成一个单独的数据帧，保持每个列的分离，但在索引上连接？目前，当我尝试将它们添加到一起时，我得到的是NaNs，并且相同的索引被复制。我创建了一个空的dataframe，这样我就可以通过append将所有三个dataframe放入其中。也许这是错的？我正在做的事情如下： df = pd.DataFrame() frames = a list of the three dataframes for x in frames: df = df.append(x)

浏览 3提问于2014-10-28得票数 0

1回答

更改DataType的GroupBy方法

pandas、pandas-groupby

使用Python3和Anaconda，我在ipython上导入了pandas和os。我有一个非常大的csv文件。在对文件使用read_csv之后，我尝试对两列使用.groupby()，但它将数据类型从DataFrame更改为DataFrameGroupBy，并且我不能再对其运行数据框方法。我想不出任何可以尝试的东西。我对熊猫的经验很少，通过codecademy获得的。我的代码似乎可以在那里工作。 import os import pandas as pd totals = pd.read_csv('filename') band_gaps = totals.groupb

浏览 19提问于2019-06-21得票数 0

回答已采纳

1回答

如何使用groupby和sum

python、pandas、sum

我正在处理一个数据帧，其中我必须分组和求和。我阅读的方法是，我必须先分组，然后选择我想要求和的列。首先使用groupby，然后选择我想要求和的列，或者先选择我想要求和的列，然后再使用groupby，这有什么区别吗？ grouped_df = df.groupby('Manager')[['Transaction', 'Defects']].sum() grouped_df = df[['Transaction','Defects']].groupby('Manager').sum() 上面的代码

浏览 18提问于2020-04-13得票数 1

1回答

如何计算特定列值的最小最大平均值并将其存储在新列中？

scala、apache-spark、apache-spark-sql

我是Spark/Scala的新手，所以我有很多问题，其中之一就是。我有一个数据帧，其中包含代码，描述，depdelay。列code有重复的值示例(EA)我想在新列中使用code的不同值和depdelay的min，max，avg。

浏览 0提问于2019-08-28得票数 0

2回答

Pandas DataFrame Python组

python、pandas、dataframe

我是Pandas的新手，我想知道在下面的例子中我做错了什么。我找到了一个示例，它解释了如何在应用组之后获得数据帧，而不是一个系列。 df1 = pd.DataFrame( { "Name" : ["Alice", "Bob", "Mallory", "Mallory", "Bob" , "Mallory"] , "City" : ["Seattle", "Seattle", "Baires", "Carac

浏览 6提问于2015-07-10得票数 2

回答已采纳

1回答

遍历DateTimeIndex以获取每天的总体情绪

python、pandas、sentiment-analysis

我正在尝试迭代一个熊猫数据帧，在那里我有dateTimeIndex作为我的索引，推特文本和添加的每条推文的情绪(所以有三列)。我是python的新手，正在寻找每天的整体情绪(所以每行只有一天，有整体情绪。我在这里用“groupby”对吗？有没有一种有效的方法可以做到这一点？

浏览 2提问于2019-07-24得票数 0

1回答

如何使用自定义函数执行groupy by？

python、pandas、dataframe

因此，我有两个数据帧，一个是包含许多列的完整数据集，每行是一个观察值。第二个数据帧是第一个数据帧的子集，但是通过一个名为“county”的变量统计列中缺少的值的百分比。到目前为止，我有一个函数提供了预期的结果，并为整个列提供了缺少的%： def missing_count(df, var): percent_missing= df[var].isnull().sum() * 100 / len(df) return round(percent_missing,2) 但我想做的是让它特定于一个县。例如-案例编号在县y中丢失了12%，在县x中丢失了15%。代码目前仅说明在整个

浏览 21提问于2020-10-29得票数 1

回答已采纳

3回答

在多列上设置组，然后追加

python、pandas、group-by

我试图在我的dataframe中计算同一个数据包的出现次数，如果一个数据包具有以下匹配字段，则它是相同的： ['SourceIP', 'SourcePort', 'DestinationIP', 'DestinationPort', 'Protocol'] 我想在我的dataframe中创建一个带有出现值的新列，并将该列命名为'PerSec‘。我尝试实现这个问题的解决方案，在这里可以找到然而，当我跑步时： df['PerSec'] = df.groupby(['SourceIP&

浏览 1提问于2020-02-18得票数 1

回答已采纳

1回答

使用Pandas优化重复选择

python、pandas

我有一个包含两列'text‘和'lang’的dataframe，我需要提取具有相同数量N种语言的'text‘值的组(唯一)。例如：对于以下示例数据帧： text lang -------------- text_a en text_b es text_a es text_a it text_c de text_c pt text_d no ... 我可以提取每个唯一文本的语言列表： df.groupby('text').lang.apply(list) 这给了我一个类似这样的结果： text_a -> [es

浏览 14提问于2021-06-28得票数 1

回答已采纳

1回答

NaN_2处的累积和重置

python、pandas、dataframe

我有一个数据帧，它是通过连接几个包含各种信息的数据帧而生成的。然后，我使用对数据列的操作结果在数据帧中创建新列。其中一列“MSD”在组成连接的每个数据帧之间的交叉处包含一个NaN。我希望创建一个新的列MSD_cum，其中每个值都是MSD的累积和，但是我希望累积和从每个NaN` `重新开始。已经有一个关于这个问题的问题了，但是尽管答案中的代码没有错误地执行，但它们实际上没有做我想要的事情。 MSD 1 2 3 4 NaN 1 2 3 将创建输出 MSD_cum 1 3 6 10 NaN 1 3 6 相反，它们产生的结果要么与输入相同，要么我自己的初始尝试也失败了，并产生了与输入相同的输出

浏览 0提问于2020-07-13得票数 4