按两列总和分组，并在pandas中创建新数据帧_分组并在PySpark数据帧中创建新列_如何按两列分组并在第三列中获得总和 - 腾讯云开发者社区

python、arrays、pandas、dataframe

下面是我在合并多个查询日志数据帧时创建的数据帧的摘录： keyword hits date average time 1 the cat sat on 10 10-Jan 10 2 who is the sea 5 10-Jan 1.2 3 under the earth 30 1-Dec

浏览 0提问于2013-05-23得票数 0

回答已采纳

1回答

使用Pandas Python将值添加到csv中基于另一列的列的总和

python、pandas

假设我有这个数据帧： Fruits Price Quantity apple 12 10 pear 50 5 kiwi 42 20 kiwi 30 35 我想要像这样按水果分组进行求和： df.groupby(['Fruits'])['Price'].sum() 到目前为止都是好的，但是我希望将价格添加到数量超过10的列的总和(价格/2)中。我该怎么做？

浏览 7提问于2020-10-27得票数 0

回答已采纳

2回答

跨字典中的键聚合来自dataframes的列

python、pandas、dictionary

我有下面的字典，有2个键，每个键的值都是一个pandas数据帧。 x1 = np.random.randn(50) x2 = np.random.randn(50) df1 = pd.DataFrame({'x':x1}) df2 = pd.DataFrame({'x':x2}) exampledict={'key1': df1, 'key2':df2} 我想在exampledict中创建一个新的键，称为'total‘，其中结果是每个键的每个数据帧中的列x的值的总和。这个例子有意很简单，但实际上1) exampledi

浏览 2提问于2017-04-13得票数 0

7回答

是否同时对列和索引值对pandas数据帧进行排序？

python、pandas、sorting、dataframe

按列的值和索引对pandas dataframe进行排序是否可行？如果按列的值对pandas数据帧进行排序，则可以得到按列排序的结果数据帧，但不幸的是，您会看到数据帧的索引顺序与排序列的值相同。那么，我是否可以按列对数据帧进行排序，例如名为count的列，但也可以按索引值对其进行排序？按降序对列进行排序也是可行的，但是按升序对索引进行排序是否可行呢？我知道如何对dataframe中的多个列进行排序，也知道通过首先对索引执行reset_index()并对其进行排序，然后再次创建索引，就可以实现这里所要求的结果。但是，这是不是更直观、更有效的方法呢？

浏览 2提问于2013-11-29得票数 59

1回答

如何用层次指数计算大熊猫的平均数

python-3.x、pandas

我有一个具有1mi行和分层索引(国家、州、城市，按此顺序)的pandas数据帧，每行都有一个产品的价格观察。我如何计算每个国家、州和城市的均值和标准差(请记住，由于我的df很大，我正在避免循环)？对于每个级别的均值和标准差，我希望将值保存在此数据框中的新列中，以供将来访问。

浏览 16提问于2017-06-23得票数 1

回答已采纳

3回答

Pandas按groupby求和，但排除某些列

python、pandas、group-by、aggregate

在Pandas数据帧上执行groupby，但从groupby中排除一些列的最佳方法是什么？例如，我有以下数据帧： Code Country Item_Code Item Ele_Code Unit Y1961 Y1962 Y1963 2 Afghanistan 15 Wheat 5312 Ha 10 20 30 2 Afghanistan 25 Maize 5312 Ha 10 20 30

浏览 0提问于2015-09-24得票数 96

回答已采纳

1回答

pandas数据帧中的函数，用于复制R中的dplyr group_by(多变量)函数

python、r、pandas、dataframe

考虑一下这种情况：在dplyr中： df = df%>% group_by(a,b) %>% 表示数据帧首先按列a分组，然后按b分组。在我的例子中，我尝试先按group_name列、然后按user_name、再按type_of_work对数据进行分组。有三列以上(这就是我感到困惑的原因)，但我需要根据这三个标题以相同的顺序对数据进行分组。在这个阶段之后，我已经有了一个处理列的算法。我只需要一个算法来创建一个根据这三列分组的数据帧。在我的例子中，像dplyr函数一样保留序列是很重要的。我们在pandas data-frame中有类似的东西吗？

浏览 0提问于2017-06-19得票数 1

1回答

Python Pandas- Groupby列以获取Pandas dataframe列中的两个峰值

python、pandas

我使用Python Pandas对一个名为"Trace“的列进行分组。对于每个跟踪，都有一个包含两个峰值的"Value“列，我试图将它们传输到不同的数据帧中。第一个问题是，当我使用groupby时，它不会保留我想要选择的值所在行的其余数据。例如，如果一个Pandas数据帧有6列，那么我想在使用groupby之后保留所有6列。第二个问题是，我想要的两个最大值不是列中的两个最大值，而是数据集中的“峰值”。例如，附加的图像显示了我想要其值的两个峰值。我希望将两个峰值中每个峰值的最大值导出到新的数据帧中，并将先前数据帧中其他列的行值导出到新的数据帧中。在下面的代码中，我希望按"

浏览 54提问于2018-08-05得票数 0

回答已采纳

1回答

使用pandas数据帧修改csv中的数据

python、pandas、csv

我有一个这样的结构；用来创建一个pandas数据帧： my_dict = { 'name' : ["joe", "jack", "jill", "joan", "jesse","jacob", "jonas"], 'age' : [20,27, 35, 55, 18, 21, 35], 'designation': ["VP", "CEO

浏览 6提问于2019-07-15得票数 0

回答已采纳

1回答

Numpy数组根据高维数据集的标签列对每个列值求和

python、arrays、numpy、group-by

我在试着学习麻木的机制。我有一个高维的numpy数组。我想要的是获得一个数组或列表，它存储按标签分组的每一列的总和。例如，这些功能如下所示： array([[-16.99176812, -2.36223789, -1.87838669, ..., 0.06839992, -0.03640378, -0.54913372], [-17.83648228, 1.28261146, -0.62738817, ..., 0.08641197, -0.09980481, -0.08203106], [-16.6340

浏览 14提问于2020-10-16得票数 0

回答已采纳

1回答

使用相关矩阵中的目标变量列填充Python Pandas Dataframe

python、pandas、dataframe、class、correlation

我有一个由不同数据类型的45个变量组成的pandas数据框架，我正在使用'dython.nominal‘包来创建每个变量之间的关联矩阵。然后我想：答:子集我的数据帧(按地理位置过滤)，并在该子集上计算关联矩阵，然后 B:使用在步骤A中创建的数据帧中的目标变量的列，创建第二个pandas数据帧并添加到第二个pandas数据帧中。然后，得到的数据帧将是一个相关性矩阵，其中列索引是地理位置，行索引是其他44个变量。到目前为止，我拥有的代码是： import pandas as pd from dython.nominal import compute_associations t

浏览 0提问于2020-10-26得票数 2

2回答

基于另一列计算值的出现次数

python、pandas

我有一个关于根据other列的总和创建pandas数据帧的问题。例如，我有这样的数据帧 Country | Accident England Car England Car England Car USA Car USA Bike USA Plane Germany Car Thailand Plane 我想制作另一个基于国家/地区的所有事故总和的数据帧。我们将忽略事故的类型，而根据

浏览 0提问于2016-09-21得票数 3

回答已采纳

3回答

DataFrames -平均列数

python、pandas、numpy、dataframe

我在pandas中有以下数据框架 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我希望创建一个数据帧，其中包含列1和列2，列3和列4的平均值，等等。 ColumnAvg(12) ColumnAvg(34) 2 3 1.5 1.5 我用的是这个，但它是所有东西的平均值。 df.mean(axis=1) 有没有办

浏览 40提问于2020-09-20得票数 3

回答已采纳

2回答

Cumsum作为现有Pandas数据中的新列

python、pandas、dataframe、cumsum

我有一个pandas数据帧定义为： A B SUM_C 1 1 10 1 2 20 我想计算SUM_C的累积和，并将其作为新列添加到相同的数据帧中。换句话说，我的最终目标是拥有一个如下所示的数据帧： A B SUM_C CUMSUM_C 1 1 10 10 1 2 20 30 显示了生成新数据帧的可能性，其中列名SUM_C将替换为累积和。但是，我的要求是将累积总和作为新列添加到现有数据帧中。谢谢

浏览 11提问于2017-01-26得票数 31

回答已采纳

1回答

基于pyspark的均值漂移聚类

python、pandas、pyspark、pandas-groupby、user-defined-functions

我们正在尝试将一个普通的python代码库迁移到pyspark。议程是对数据帧(以前是pandas，现在是spark)进行一些过滤，然后按user-ids对其进行分组，最后在顶部应用meanshift集群。我在分组数据上使用pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)。但现在，最终输出的表示方式出现了问题。假设我们在输入数据帧中有两列：user-id和location。对于每个用户，我们需要获取所有集群(在location上)，只保留最大的一个，然后返回其属性，这是一个3维向量。让我们假设3元组的列是col-1、col-2和col-3。

浏览 11提问于2019-05-14得票数 0

回答已采纳

2回答

将唯一列值分组为pandas dataframe列中每个唯一值的总和

python、dataframe、sum、pandas-groupby

我尝试获取一个pandas数据帧，并基于两列对其进行分组，以便在相应的值列中获得每个唯一组合的总和。 Dataframe如下所示： Charge Code Billing Number Amount 1250-001 500120 5000 1250-001 500120 -5000 1250-001 500220 300 1250-001 520320 400 1136-001 360220 700 1136-001 360220

浏览 26提问于2020-04-06得票数 0

回答已采纳

1回答

计算每组前n行的总和

python、pandas、dataframe

我想要做的是按列A分组，然后取前两行的和，然后将该值指定为新列。示例如下： DF： ColA ColB AA 2 AA 1 AA 5 AA 3 BB 9 BB 3 BB 2 BB 12 CC 0 CC 10 CC 5 CC 3 所需的DF： ColA ColB NewCol AA 2 3 AA 1 3 AA 5 3 AA 3 3 BB

浏览 16提问于2020-10-16得票数 3

回答已采纳

2回答

是否有一个函数可以对依赖数据类型求和？

python、pandas

我在pandas中有一个数据帧，其中包含Year (整数)、Loc (整数的有序对)和Rain (布尔值)列。每个Year都有许多Rain数据点。例如，在图表中，您可能会看到： Year | Loc | Rain 1700 (0, 0) 1 1700 (0, 0) 1 1700 (5, 6) 0 等。如果Year和Loc相同，有没有一个函数可以将这些数据点组合成一个数据点，其中Rain是相应的Year和Loc点的所有Rain点的总和？

浏览 1提问于2015-10-06得票数 0

1回答

迭代pandas数据框以创建一个总和为100%的图表

pandas、dataframe

我有以下数据帧我想添加两列“季度期间的统计总数”( "stat“的总值，没有应用参数分解)和”季度总数的百分比“--这将显示比例是如何随着时间的推移而变化的，并构建一个总和为100%的堆叠图不幸的是，我在用"pandas方式“计算”季度统计总数“时遇到了麻烦。我最终逐个单元格地迭代数据帧，这感觉像是一个次优解，然后将一列除以另一列，得到% for elements in df.index: df.ix[elements,3] = df[df['period']==df.ix[elements,0]]['stat'].su

浏览 2提问于2016-08-16得票数 2

回答已采纳

2回答

检查两个数据文件的相等性

python-3.x、pandas、dataframe

检查两个数据格式是否相等的Pythonic方法是什么？我现在所做的是：用pandas.DataFrame.sort_values()对具有唯一值的列对数据帧进行排序使用pandas.DataFrame.reset_index()重新设置数据帧排序后的索引使用pandas.DataFrame.sort_index()按行和列对数据帧索引进行排序然后使用pandas.DataFrame.all()对两个数据帧进行比较。示例代码： (df1.sort_values(['Symbol']).reset_index(drop=True).sort_in

浏览 2提问于2017-02-13得票数 2

1回答

如何对与Pandas创建的每个组相关的一系列数据求和？

python、pandas、pandas-groupby

在Python pandas数据框中，假设我使用pandas groupby()方法对数据进行分组，结果如下：我如何从Third列中分别计算每个组(这里是A和B)的值的总和，这样我就可以在一个单元格中获得每个主要组的总和值？例如，我可以将12+32+43放在组A的新单元格中，将145+231+123放在组B的另一个单元格中。我的代码是： import pandas as pd data = pd.read_excel('file.xlsx') mydf = data.groupby[['First','Second']].sum()

浏览 0提问于2018-08-05得票数 0

1回答

Python Pandas -使用来自两列的条件计算平均值

python、pandas

我正在尝试使用其他两个列的选择标准来计算Pandas数据框列的平均值。在下面的代码中，"Trace“和"Sample”列将用于选择条件，而"Value“列中的数字将用于计算。我想按"Trace“编号分组，只取"Sample”编号3、4和5的平均值。然后，我想在原始数据帧"df“中创建一个新列，并将计算出的平均值放在与正确的"Trace”编号相对应的所有行中。 d = {"Trace": [1,1,1,1,1,2,2,2,2,2], "Sample": [1,2,3,4,5,1,2,3,4,5], "

浏览 10提问于2018-08-01得票数 2

回答已采纳

2回答

使用3列数据操作pandas数据帧

python、pandas

我想不出一个办法来完成我的任务。我有一个包含3列的数据帧：length, reachcode, and year。我的示例dataframe： year reachcode length 1988 1000 1.2 1988 1000 2.0 1990 1000 0.3 1993 1000 0.5 我试图找到一个年份内的“reachcode”重复项，然后对该年的“长度”求和。之后，我想要比较不同年份的相同“reachcode”和“length”值的总和，并保留最小的值。因此，在示例数据帧中，将1998年和reachcode =

浏览 2提问于2016-08-23得票数 1

3回答

python pandas简单数据透视表和计数

python、pandas、dataframe、group-by、pivot-table

我正在尝试找出对我的数据进行简单透视的最佳方法： import pandas dfn = pandas.DataFrame({ "A" : [ 'aaa', 'bbb', 'aaa', 'bbb' ], "B" : [ 1, 10, 2, 30 ], "C" : [ 2, 0, 3, 20 ] }) 我想要输出是一个数据帧，按A分组，B和C的总和和计数值，名称必须准确(Sum_B，Sum_C，C

浏览 0提问于2016-06-22得票数 6

1回答

对dataframe中的子索引进行排序，并对前"n“个条目求和

python、pandas、dataframe

我有一个数据帧，看起来像这样： Population2010 State County AL Baldwin 90332 Douglas 92082 Rolling 52000 CA Orange 3879602 San Diego 4364594 Los Angeles 12123562 CO Boulder 161818 Denver 73772

浏览 0提问于2018-04-28得票数 1

0回答

如何根据特定的列值从合计值中创建新的数据帧？

python、pandas、dataframe

假设我有一个数据帧，它看起来像这样： A B C X U 500 X S 300 X T 200 Y F 20 Y G 980 Z L 400 我想在列A中使用特定值，因此{X，Y，Y}，并基于这些值，我想获取行C的总和，并将其输出到新的数据帧中。我的新数据帧应该像这样 A B X 1000 Y 1000 Z 400 它本质上是将列A中的值按名称分组，从A中的每个值中获取C的总和，并使用列C中的合计创建一个新的数据帧，其名称在A列中指定。我需要它自己获取这些值，因为想象一下我的数据帧在A列有200行和80个不同的值。

浏览 6提问于2017-06-14得票数 1

回答已采纳

1回答

根据另一列的和将数据帧分成十进制数的方法

python、pandas、binning

使用pandas，我尝试使用排名分数(x)将数据帧分成十进制，这样每个十进制数包含基于不同列(y)之和的相等值。换句话说，它将填充每个十进制数，直到它达到某个特定的值(y // 10的总和)，然后进入下一个十进制数。我尝试过使用cut和qcut，但它只按x拆分，而不按y中的值拆分。

浏览 12提问于2019-05-21得票数 0

回答已采纳

6回答

如何在非唯一列中按日期对pandas DataFrame条目进行分组

python、pandas

Pandas DataFrame包含名为"date"的列，该列包含非唯一的datetime值。我可以使用以下命令对此帧中的线条进行分组： data.groupby(data['date']) 但是，这将按datetime值拆分数据。我想按“日期”列中存储的年份对这些数据进行分组。展示了如何在将时间戳用作索引的情况下按年分组，但在我的例子中并非如此。如何实现此分组？

浏览 1提问于2012-07-09得票数 94

回答已采纳

2回答

基于Pandas数据帧中的几个变量计算概率

python、loops、pandas、dataframe

我对Python和Pandas还很陌生，所以请耐心听我说…… 我有一张沉船上乘客的数据。我已经按男性和女性以及班级将其分解为其他数据帧，以创建生存概率。我做了一个函数，将一个数据帧与只有幸存者的数据帧进行比较，并计算这组数据的存活概率： def survivability(total_pass_df, column, value): survivors = sum(did_survive[column] == value) total = len(total_pass_df) survival_prob = round((survivors / total), 2)

浏览 2提问于2017-01-08得票数 1

3回答

Pandas Dataframe按多列分组，然后求和

python、arrays、pandas、aggregate-functions

假设每个Python代码都有以下内容： import pandas as pd import numpy as np 在Pandas中，如果我有一个2列的数据帧，其中一列是数字数组，我可以将数组的值相加得到一个数组。 df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar'], 'numbers' : [np.array([1, 2, 3, 4]),np.array([2, 4, 2, 4]),np.array([2, 3, 4, 5]),np.arra

浏览 8提问于2015-09-03得票数 2

2回答

根据值和sum聚合列

python

import pandas as pd test = pd.DataFrame({'Area': ['Tipperary','Tipperary','Cork','Dublin'], 'Deaths': [11,33,44,55]} ) 我在更大的范围内遇到了这个问题，但为了可读性，我创建了一个较小的版本，我需要什么groupby逻辑来按Area列和sum进行分组，这意味着我最终得到3行，而不是4行，因为Tipperary在那里两次。假设我总共有6列，我

浏览 28提问于2021-11-05得票数 0

4回答

如何计算该列总和的百分比？

python、pandas、pandas-groupby

我有一个熊猫数据帧，看起来像这样： Country Sold Japan 3432 Japan 4364 Korea 2231 India 1130 India 2342 USA 4333 USA 2356 USA 3423 我使用了下面的代码，并获得了"sold“列的总和 df1= df.groupby(df['Country']) df2 = df1.sum() 我想问一下如何计算“售出”一栏总和的百分比。

浏览 0提问于2019-12-18得票数 0

4回答

使用pandas groupby计算distinct不起作用

python、pandas、count、distinct

我所要做的就是遍历DataFrame，并使用pandas group by计算唯一值的数量。我也对数据帧进行了排序，但没有用。我已经尝试了15种不同的方法，并阅读了我能找到的每一个问题/回复线程，但我不知道为什么它不起作用。创建DF的代码： #list of queries is literally a python list of queries in no specified #order user_queries = pd.DataFrame(list_of_queries) user_queries = user_queries.rename(index=str, colum

浏览 119提问于2019-05-25得票数 0

1回答

python pandas为列I group by提供了一个键错误，即使布尔表达式显示该列是数据帧的一部分

python、pandas、dataframe、pandas-groupby、keyerror

我似乎无法打印以下行：summarydata["Name"].groupby(["Tag"]).size() 不会得到错误： File "C:\Users\rspatel\untitled0.py", line 76, in <module> print(summarydata["Name"].groupby(["Tag"]).size()) File "C:\Users\rspatel\Anaconda3\lib\site-packages\pandas\core\serie

浏览 0提问于2021-09-20得票数 2

2回答

创建一个显示每列总和的新数据帧

r、dataframe、sum

我有一个数据帧，看起来像这样 Date Food Utility Travel 01 1.2 12.00 0 02 10.52 0 12.50 03 9.24 0 2.7 04 3.25 0 2.7 我想创建一个新的数据框架，它在第一列中显示支出的类型(例如，食品、公用事业)，然后在另一列中显示总和。我不需要新框架中的日期列，但不想在原始框架中省略它。我希望有下面的输出。 Category Total Utility 12.00 Food 24.21 Tran

浏览 2提问于2020-05-21得票数 1

1回答

在我的数据帧元组中跨行求和一项？

python、pandas、numpy

我正在尝试在我的数据框架中创建一个新列，该列包含每个单元格中第二个项目的总和(按行)。因此，在下面的数据框中，我想要一个总和为0.001658、0.011609、0.01495、0.016584、0.014925等的列。然后继续向下处理所有行.. 我在编写for循环时遇到了麻烦，该循环将对此进行迭代，以逐行对第二项求和，并为其创建一个新列。我的数据帧如下所示：

浏览 0提问于2017-01-22得票数 1

2回答

关于群R中的群的函数

假设我有一个包含三列的数据帧df：revenue (整型)、quarter (4级因子)和product (3级因子)。 df <- data.frame( revenue = sample(500:5000, 10, replace=TRUE), quarter = sample(c("q1", "q2", "q3", "q4"), 50, replace = TRUE), product = sample(c("book", "movie", "tv&

浏览 2提问于2016-11-01得票数 0

1回答

将Pandas groupby组转换为列

python、pandas、dataframe

我尝试按两个单独的组类型A_Bucket和B_Bucket对一个A_Bucket数据帧进行分组，并将每个Pandas组转换为一个列。我得到了这样的组： grouped = my_new_df.groupby(['A_Bucket','B_Bucket']) 我希望A_Bucket组在列中，B_Bucket组作为索引。'A‘大约有20个值，B大约有20个值，所以总共有大约400个组。当我打印grouped及其类型时，我得到： type of grouped2 = <class 'pandas.core.groupby.DataFrameGr

浏览 5提问于2016-09-05得票数 12

回答已采纳

2回答

将新列插入到数据帧中会给出'ValueError:值的长度(4)与索引的长度(6)不匹配‘

python、python-3.x、pandas、data-science

我用pandas库创建了一个数据帧。我想向dataframe中添加一列。然而，我得到了以下error.But，我想我必须输入与lines.How数量一样多的数据，我可以在我想要的行和列中输入信息吗？如果不输入数据，如何创建列？ import pandas as pd kd = pd.DataFrame(data) insertColumns = kd.insert(0, "Age", [21, 23, 24, 21],True ) print(kd) 错误： ValueError: Length of values (4) does not match length o

浏览 302提问于2020-10-10得票数 2

回答已采纳

2回答

使用Groupby和Sum减少数据帧

python、pandas、dataframe、group-by、pivot-table

我有一个数据帧，在一列中有一些重复出现的值。我想按该列分组，并对其他列求和。数据帧如下所示： ? 编辑:这是创建数据帧的代码。请注意名为'Able‘的列，它是索引。 df=pd.DataFrame({'Able': ['Blue', 'Green', 'Red', 'Orange'], 'Baker':[ 'New York', 'New Jersey', 'New York', 'New Jersey'], '

浏览 40提问于2021-11-05得票数 1

回答已采纳

1回答

查找两列中的最大值，并用第三列中的值填充

python、pandas、dataframe、group-by、pandas-groupby

我有一个包含4列的pandas数据帧- A、B、C、D和E。我想按A列创建组，然后找到B列和C列的最大值，然后用D中的相应值填充E，如下面的示例所示。我的预期输出： column A column B column C column D Column E AA 1 a 12 15 AA 2 d 13 15 AA 3 b 14 15 AA

浏览 10提问于2021-07-08得票数 2

回答已采纳

2回答

寻找使用Python的Pandas将两个日期之间的日期时间按日期时间分组的方法

python、pandas、date、datetime

我正在尝试使用Pandas (Python)来做以下事情。我有一个包含以下列的数据帧： Building、Door_Color、Door_Time_Open、Door_Time_Close、Opening_Width 我尝试按日期和时间对数据进行分组，这样每一秒我都会计算打开的门的数量和width_of_opening的总和。例如： Data: Building, Door_Color, Door_Time_Open, Door_Time_Close, Opening_Width A , Red , 2000-01-01 00:00:00, 2000-01-01 00:00:05, 10

浏览 9提问于2020-06-18得票数 2

1回答

创建新的Pandas分组对象

python、numpy、pandas

在某些转换中，我似乎被迫脱离Pandas dataframe分组对象，而我想要一种返回到该对象的方法。给定一个时间序列数据帧，如果按数据帧中的一个值分组，我们将获得一个从键到数据帧的底层字典。因为结构是dataframe的关键，所以不能使用.from_dict()将该结构转换回Dataframe。据我所知，返回Pandas而不进行一些繁琐的列重命名的唯一方法是将其转换回一个分组的对象。有没有办法做到这一点？如果没有，我如何将实例字典转换回数据帧，再转换回Pandas数据结构？编辑添加样本：： rng = pd.date_range('1/1/2000', periods=

浏览 0提问于2014-05-06得票数 0

1回答

Python Pandas按迭代分组

python、python-3.x、pandas、dataframe

在Python3.6中，我在for循环的帮助下遍历了pandas dataframe中的groupby列。这样做的问题是，如果我有很多数据，它就会变得很慢。这是我的代码： import pandas as pd dataDict = {} for metric, df_metric in frontendFrame.groupby('METRIC'): # Creates frames for each metric dataDict[metric] = df_metric.to_dict('records') # Converts dataframe

浏览 0提问于2018-03-01得票数 0

回答已采纳

1回答

通过添加多列在Pandas dataframe中创建新列

python、pandas、dataframe

我只是个初学者，我有一个包含多个列的数据帧，如下所示 A B C D 2 4 6 8 1 3 5 7 1 2 3 4 列A-D的名称是它的日期。例如，4月1日、4月2日、4月3日等。但数据帧还包括前几个月。如何创建一个新列并仅获得四月份的总和？谢谢。

浏览 0提问于2021-05-03得票数 0

2回答

除了计算之外，使用现有数据帧选择性地构建新的数据帧

python、python-3.x、pandas、numpy、merge

填写下面的Pandas代码，创建一个新的名称为customer_spend的DataFrame，它包含以下列的顺序: customer_id、name和total_spend。total_spend是一个新列，其中包含特定客户下的所有订单的成本总和。我正在做一个与Python Pandas相关的在线课程。正如我在上面所写的，这段代码的目标是创建一个名为'customer_spend‘的新数据帧，其中包含customer_id、name和total_spend列。我遇到的问题是，只使用两个不同的现有数据帧的一部分来构建数据帧。我尝试了合并，但它占用了现有数据帧的每一列。此外，我在将

浏览 6提问于2019-01-07得票数 2

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

pandas、apache-spark、dataframe、scikit-learn、pyspark

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。现在我为dataframe中的每一行都有了journalID和TFIDF vector。我想将支持向量机应用于所有类型的核，以TFIDF向量作为特征，以JournalID作为标签。由于多类支持向量机不存在于pys

浏览 1提问于2018-12-17得票数 0

1回答

Python将CSV中第一列的总和获取到Pandas DF

python、pandas

我想要得到csv文件中第一列的总和(没有标题)。然后，我想将总和作为变量写入Pandas数据帧。这是我到目前为止所掌握的。 file_name = "amounts.csv" df = pd.read_csv(file_name,delimiter='\t').dropna() amounts = df[0].sum() print(amounts)

浏览 12提问于2019-04-25得票数 0

1回答

Pandas如何复制和添加基于两列的值的新列

python、pandas、dataframe、jupyter

我有一个名为contest的数据帧这里有两个我感兴趣的专栏 TST =拍摄总数SM =拍摄次数我想复制这个名为contest的数据框，并创建一个划分SM/TST的新列我用的是pandas和numpy。制作数据帧的新副本的步骤。将新列添加到复制的数据帧中，并将该计算称为shotperc = shot百分比将非常有帮助。我这周才开始使用Jupyter笔记本。

浏览 0提问于2020-09-20得票数 0

2回答

Pandas:向groupby框架中的新列添加摘要信息

python、pandas、pandas-groupby

完成一项班级作业。我们当前的数据集包含如下信息： Item ID Item Name Price 0 108 Extraction, Quickblade Of Trembling Hands 3.53 1 143 Frenzied Scimitar 1.56 2 92 Final Critic 4.88 3 100

浏览 16提问于2018-12-17得票数 0

回答已采纳