Groupby为具有固定系列名称的df清空_pyspark合并覆盖为一个具有固定名称的文件 - 腾讯云开发者社区

、、、

我有以下MultiIndex熊猫数据帧。 Asset Price Quantity Traded Date Asset 2015-01-01 Ripple 0.024455 7 Bitcoin 320.440000 3 2015-01-02 Ripple 0.024377 1 Bitcoin 314.080000 -10 2015-01-03 Ripple

浏览 19提问于2018-01-19得票数 0

1回答

使用“as_index”和“reset_index”将系列转换为数据格式

、、、

我试图使用as_index =方法将这一系列数据转换为数据。我的目标是显示每月和工作日的总价值。我的数据这是我的主要数据uber-15。 Dispatching Pickup_date Affiliated locationID month weekDay day hour minute 0 B02617 2015-05-17 09:47:00 B02617 141 5 Sunday 17 9 47 1 B02617 2015-05-17 09:47:00 B02617 65 5 Sun

浏览 1提问于2022-12-02得票数 0

回答已采纳

1回答

Series.Items()方法返回Zip而不是预期输出(Pandas)

、、、、

我试图访问Pandas中的series.items()方法返回的一系列索引。当我生成的系列是groupby的结果时，我成功地做到了这一点： df = pd.DataFrame( { 'species': ['dog', 'cat', 'horse', 'dog', 'cat', 'horse'], 'weight': [44.5, 12.3, 600.2, 37.3, 8.5, 405.9] } ) df.groupb

浏览 4提问于2022-09-28得票数 1

回答已采纳

1回答

Pandas插值:在缺失日期范围内转发值

、、、、

我有关于设施流量的时间趋势数据(随着时间的推移进入和释放一个设施)，有差距。由于这一数据的结构，当出现缺口时，缺口前一天的“释放”是人为的(占在缺口期间释放的所有未见人员的数字)，而在差距出现后的第一天的“接纳”(出于同样的原因:在缺口期间被接纳并留在设施内的任何个人在这一天将被视为“接纳”)。以下是涉及这种数据差距的Pandas系列样本(零表示2020-01-04至2020-01-07之间丢失的数据)： date(index) releases admissions 2020-01-01 15 23 2020-01-02 8

浏览 2提问于2021-04-27得票数 1

回答已采纳

1回答

Pandas中群比方法的“级”参数是如何工作的？

、、、

(df.set_index('STNAME').groupby(level=0)['CENSUS2010POP'] .agg({'avg': np.average, 'sum': np.sum})) 在上面的代码中，为什么有必要在groupby中指定level参数，因为据我所理解，只有当multiIndex在DataFrame中时才需要级别参数。

浏览 0提问于2018-12-09得票数 1

回答已采纳

2回答

如何直接从groupby创建数据帧

、

我下面的代码很好。但是..。我认为有一种更有效的编码方法。但我搞不懂。我认为reset_index()工作得很好，但在这种情况下就不行了。所以，所有的建议都是欢迎的。提前感谢！我有一个很大的数据(医院数据)。所有数据均来自2017年、2018年和2019年。专栏: spoedelectief可以有两个值:一个用于紧急情况，另一个用于非紧急病人。在荷兰，紧急情况被称为Spoed。所以，紧急是S，而非紧急是E。从dataframe我想要(可视化的数量的紧急和非紧急情况每年)一个新的数据。但我被困住了。一些代码； test = df_new.groupby(df_new['operati

浏览 3提问于2020-12-07得票数 1

回答已采纳

3回答

按字段填充以前的值- Pandas应用功能不填充

、、、

我试图用特定子集的前一行的值填充新列(前一次)中的每一行(满足条件时)。问题是，如果我中断内核并检查值，就可以了。但是，如果它运行到末尾，那么新列中的所有行都没有填充。如果上一行不存在，我将用第一个值填充它。 Name First round Previous time Runner 1 2 2 Runner 2 5 5 Runner 3 5 5 Runner 1 6 2 Runner 2 8 5 Runner 3 4 5 R

浏览 2提问于2020-05-16得票数 0

回答已采纳

2回答

将DataFrame拆分为DataFrame

、

我有一个DataFrame，不同的行可以对一个列具有相同的值。例如： import pandas as pd df = pd.DataFrame( { "Name" : ["Alice", "Bob", "John", "Mark", "Emma" , "Mary"] , "City" : ["Seattle", "Seattle", "Portland", "Seattle", &

浏览 3提问于2017-11-20得票数 4

回答已采纳

2回答

熊猫:根据标准分组和选择一行

、

我在寻找熊猫的一系列功能，提供这样的输入： id label rank aab quz 2 aaa foo 1 aac bar 4 aad foo 4 aac foo 2 aac baz 3 aab baz 3 aaa bar 5 按id分组并在每个组中选择rank最低的记录。输出将如下所示：输出： id label rank aaa foo 1 aab qaz 3 aac

浏览 6提问于2016-03-15得票数 2

回答已采纳

2回答

使用groupby计算每个用户的百分比

、

我有一个数据帧，看起来像这样： completed User 0 false sftcb 1 true jsftcb 2 true aynood 3 true poantar 4 false aynood 5 true brrow 6 true brrow 7 true paose 8 true pimes 9 false brrow 我想要得到每个用户

浏览 8提问于2020-03-07得票数 0

回答已采纳

1回答

在熊猫中指数有超过一行的返回组结果

、、、

我有以下数据： ID Company Name State 200 Apple CA 300 Microsoft CA 300 Grant Thornton IL 200 Amazon WA 200 Apple CA 250 Dollar Tree VA 250 Dollar Tree VA 250 Dollar Tree VA 400 Target

浏览 0提问于2019-07-21得票数 1

回答已采纳

2回答

熊猫:从群中创建数据，并在不同的列上同时应用和。

、、

我有以下数据 medal number Age Gold 5 25 Silver 4 30 Bronze 3 45 Gold 1 23 Silver 2 12 Bronze 3 16 而且，我正试着在奖章上分组，得到“数字”和“年龄”的平均值。我可以用两行来做，但是如何用单线和熊猫群在一起。我一次可以做一次手术 df.groupby(['medal'])['A

浏览 0提问于2018-11-20得票数 0

回答已采纳

1回答

根据平均值向dataframe添加新列

、、

我有一个数据框架，其中包括项目类别、货币、投资者数量、目标等，我想创建一个新列，它将是“他们类别的平均成功率”： state category main_category currency backers country \ 0 0 Poetry Publishing GBP 0 GB 1 0 Narrative Film Film & Video USD 15 US 2 0 Narrative Film Film & Vid

浏览 4提问于2018-12-12得票数 1

1回答

将groupby的第一个元素分配给产生NaN的列

、

为什么这不管用呢？如果我只打印出来，就会得到正确的结果，但是如果我使用相同的方法将它赋值给df列，我会得到南值. print(df.groupby('cumsum').first()['Date']) cumsum 1 2021-01-05 11:00:00 2 2021-01-06 08:00:00 3 2021-01-06 10:00:00 4 2021-01-06 13:00:00 5 2021-01-06 14:00:00 ... 557 2021-08-08 0

浏览 1提问于2021-08-19得票数 1

回答已采纳

2回答

熊猫选择同时包含两个值的行(包括)

、、

我试图只选择同时具有两个值的行。例如，我试图只选择一个在Ear列中同时具有的的病人。在这种情况下，只有Lisa。下面是我试图获得正确数据的代码。 import pandas as pd data = {'name': ['Lisa', 'Lisa', 'Mac', 'Intosh'], 'ear': ['Right','Left','Right','Left'] } df = pd.DataFrame(data,

浏览 0提问于2019-05-15得票数 3

回答已采纳

8回答

熊猫群:如何获得字符串的结合

、

我有这样的数据： A B C 0 1 0.749065 This 1 2 0.301084 is 2 3 0.463468 a 3 4 0.643961 random 4 1 0.866521 string 5 2 0.120737 ! 呼叫 In [10]: print df.groupby("A")["B"].sum() 会回来 A 1 1.615586 2 0.421821 3 0.463468 4 0.643961 现在，我想对&

浏览 4提问于2013-07-24得票数 137

回答已采纳

1回答

考虑不同产品的python中的时间序列分裂

、、、

我有df (熊猫)包含了一些产品的时间数据(见下文)。产品不得与其他产品在同一日期开始或完成(例如。prod 1和2系列在dn之前就完成了，而prod 4开始于d3和dn之间)。我想做一个时间序列分裂，考虑到每一个产品。通过这样做，我可以有相同的训练和测试日期，视产品而定。我该怎么做？ date prod value d1 p1 10 d1 p2 10 d2 p1 15 d2 p2 12 d3 p1 8 d3 p2 5 d3 p3 7 . dn p2 20 dn p4 10

浏览 5提问于2022-07-07得票数 0

回答已采纳

3回答

熊猫: to_csv()得到了一个意想不到的关键字参数

、、

当我试图在dataframe to_csv函数中使用一些参数时，它会抛出一个TypeError，例如‘TypeError: to_csv()获得了一个意外的关键字参数’双引号‘ df.to_csv('transactions.x', header=False, doublequote=False)或df.to_csv('transactions.x', doublequote=False) 我的熊猫版本是0.19.2 (与print(pd.__version__)核对)，我正在使用Python 3.5 下列正式文件是以0.19.2为基础的。虽然，我有类型错误，但

浏览 3提问于2017-04-28得票数 3

1回答

使用Pandas添加MultiIindex系列的滞后特性

、、、

我有一个MultiIndex系列(3个索引)，看起来如下： Week ID_1 ID_2 3 26 1182 39.0 4767 42.0 31393 20.0 31690 42.0 32962 3.0 .................................... 我还有一个dataframe df，它包含上面系列中用于索引的所有

浏览 2提问于2016-07-30得票数 1

回答已采纳

3回答

熊猫如何在另一栏重复的基础上输出不同的值

、

这里有一个例子： import pandas as pd df = pd.DataFrame({ 'product':['1','1','1','2','2','2','3','3','3','4','4','4','5','5','5'], 'value':['a','a',&

浏览 4提问于2019-10-04得票数 0

回答已采纳

2回答

KeyError在执行熊猫计数时

、、、

浏览 13提问于2021-03-22得票数 0

回答已采纳

3回答

将列表头添加到序列

、、

我是Python的新手，我正在尝试将我的系列放到一个数据帧中，并将头文件重命名为Month和Minutes。下面我将数据分组到'df‘中 df = data df = df.groupby(df['endTime'].dt.strftime('%Y-%m'))['Minutes'].sum().sort_index() print(df) 然后我把这个系列转换成一个数据帧 df1 = pd.DataFrame(df) print(df1) 此时，列标题开始位于不同的级别上，就好像它们位于不同的行上一样我不知道如何纠正这

浏览 17提问于2020-11-14得票数 0

回答已采纳

1回答

Python按对象dtype分配组

、、、

这个python DataFrame： df = pd.DataFrame({'ID': [3553102778, 3553102958, 3553103948, 3553103948, 3553104038, 3553104038, 3553104128, 3553104218, 3557580098], 'Based on': ['CTR', 'CTR', 'Conv rate', 'CTR', 'Conv rate', 'CTR', 'CTR',

浏览 1提问于2015-08-07得票数 0

回答已采纳

2回答

在另一列中的每个唯一值中查找两个数据集中的匹配记录

、、、

dataset_a = zid code number a1 abc 4.568 a2 adc 4.368 a3 asc 4.566 a4 bde 5.568 a5 ghi 7.969 a6 gji 7.475 dataset_b = col code series 55 abc 1 22 adc 1 44 asc 2 11 asv 2 66 bde 3 77 trd 4

浏览 3提问于2022-08-18得票数 0

回答已采纳

3回答

熊猫:合并重复指标值

、、、、

我有一个熊猫系列，我想用三种不同的方式组合。该系列内容如下： import pandas as pd timestamps = [1,1,1,2,3,3,3,4] quantities = [10,0,2,6,7,2,8,0] series = pd.Series(quantities, index=timestamps) 显然，时间戳有3 values of 1、1 value of 2、3 values of 3和1 value of 1。我想生成以下系列： 1.重复索引值之和： pd.Series([12,6,17,0], index=[1,2,3,4]) 2.重复索引值的中位数： pd

浏览 2提问于2019-03-12得票数 1

回答已采纳

2回答

根据Groupby和单独列中的值在dataframe中创建新列

、、

我有一个这样的df： df = pd.DataFrame({'Info': ['A','B','C', 'D', 'E'], 'Section':['1','1', '2', '2', '3']}) 我希望能够创建一个新列，如'Unique_Info'，如下所示： df = pd.DataFrame({'Info': ['A','B',

浏览 6提问于2020-10-21得票数 1

回答已采纳

3回答

pandas groupby aggregate元素列表添加

、、、、

我有一个熊猫数据框架，如下所示： X Y 71455 [334.0, 319.0, 298.0, 323.0] 71455 [3.0, 8.0, 13.0, 10.0] 57674 [54.0, 114.0, 124.0, 103.0] 我想执行一个聚合groupby，它按元素添加存储在Y列中的列表。我尝试过的代码： df.groupby('X').agg({'Y' : sum}) 结果如下：

浏览 19提问于2018-08-20得票数 12

回答已采纳

2回答

基于agg的多索引熊猫类群求和及应用列表

、

我有两个多索引系列系列1 Company Name Product Price TransactionID Company A Apple 10 T0001 Company B Grapes 20 T0002 Orange 30 T0003 系列2 Company Name Product Price TransactionID Company A Orange

浏览 1提问于2018-10-23得票数 2

回答已采纳

1回答

熊猫，结合多种数据

、、

我有一个python程序，它执行以下操作。在.csv中读取使用csv特定列的值创建数据格式。将时间戳从unix时间戳转换为按小时对数据进行分组，然后查找该小时中某些数据的平均值。代码： df = pd.read_csv(files,parse_dates=True) df2 = df[['timestamp','avg_hr','avg_rr','emfit_sleep_summary_id']] df2['timestamp'] = df2['timestamp'

浏览 8提问于2015-04-09得票数 1

回答已采纳

1回答

熊猫-用max进行断言错误聚合

几个月来，我一直在做这一系列的聚合，没有任何错误。 goals = df.groupby('name').sum()['G'] assists = df.groupby('name').sum()['A'] shots_post = df.groupby('name').sum()['FT'] shots_saved = df.groupby('name').sum()['FD'] shots_off = df.groupby('name').sum(

浏览 2提问于2020-12-01得票数 1

回答已采纳

2回答

Pandas DataFrame Python组

、、

我是Pandas的新手，我想知道在下面的例子中我做错了什么。我找到了一个示例，它解释了如何在应用组之后获得数据帧，而不是一个系列。 df1 = pd.DataFrame( { "Name" : ["Alice", "Bob", "Mallory", "Mallory", "Bob" , "Mallory"] , "City" : ["Seattle", "Seattle", "Baires", "Carac

浏览 6提问于2015-07-10得票数 2

回答已采纳

2回答

如何将df中值相关分数的起始值设置为100

、、、

这是一个如此简单的问题，但我找不到使用术语“规范化”或过度使用的术语“索引”。如何将所有“汽车”的起始值设置为100？在现实中，有52辆车和更多的时间戳。 import pandas as pd ExampleOfWhatIHave = {'Car':['A', 'B', 'A', 'B'], 'Hour':['1', '1', '2', '2'],

浏览 19提问于2021-10-06得票数 1

回答已采纳

1回答

Groupby和转换Pandas

、、、

示例DF： sample_df = pd.DataFrame(np.random.randint(1,20,size=(10, 2)), columns=list('BC')) sample_df["date"]= ["2020-02-01","2020-02-01","2020-02-01","2020-02-01","2020-02-01", "2020-02-02","2020-02-02","

浏览 25提问于2020-04-17得票数 0

回答已采纳

1回答

在多个列上放置重复项，而不考虑顺序(a/b == b/a)

、、

有没有办法在不考虑订单的情况下删除大熊猫中的重复配对呢？删除前的数据->要删除重复对(黄色) 删除重复之后示例数据： df = pd.DataFrame({'a': [1,2,1,1,2,2], 'b': [2,1,3,4,3,4] })

浏览 4提问于2022-01-07得票数 0

2回答

将csv中的单列转换为分层列

、

当我导入一个csv文件时，该文件只包含一个由州和城市组成的列，例如： ALABAMA NaN Birmingham Montgomery Huntsville NaN CALIFORNIA NaN Los Angeles San Diego Fresno NaN 我的问题是，如何将其转换为两个分层列，使其看起来更像以下内容： ALABAMA Birmingham Montgomery Huntsville CALIFORNIA Los Angeles San Diego Fresno 我尝试创建一个e

浏览 0提问于2018-05-17得票数 0

3回答

我怎样才能在熊猫群中得到最受欢迎的物品？

、、、

我有一款Pandas Dataframe，里面装着汽车供销售，我想得到每个品牌最受欢迎的产品，但是我似乎做不到。我有一个熊猫的数据栏(例如:车辆类型，价格，里程，年份，品牌，型号等)和每个汽车品牌，我想检查哪一个模式发生最多。我试过用一个群，像这样： popular_models = dataset.groupby('brand').model.value_counts().groupby(level=0).nlargest(1) 但是它返回一个Pandas系列，其中我想要的一些数据存储在索引中，它还添加了一个重复的列，对我来说没有任何意义。我想要一个包含3列的DataFr

浏览 1提问于2019-01-15得票数 2

回答已采纳

2回答

优化Python代码

、、、、

我已经编写了以下代码来预处理这样的数据集： StartLocation StartTime EndTime school Mon Jul 25 19:04:30 GMT+01:00 2016 Mon Jul 25 19:04:33 GMT+01:00 2016 ... ... ... 它包含用户参与的位置列表以及开始和结束时间。每个位置可能会出现多次，并且没有全面的位置列表。由此，我希望聚合每个位置的数据(频率、总时间、平均时间)。为此，我编写了以下代码： def toEpoch(x): try: x

浏览 1提问于2017-01-23得票数 1

2回答

如何在Matplotlib中使用DateTimeIndex中的月度数据绘制年度序列？

、、、

我在一个数据集中有6个变量的月度数据，从2014年到2018年。我试着用每月的X轴(Jan，Feb....)绘制6个子图(每个变量一个)。和5个系列(每年一个)和他们的legend。这是数据的一部分：我为每个变量(总共30个)创建了5个系列(每年一个)，我得到了预期的输出，但使用了很多行代码。使用更少的代码行来实现这一点的最佳方法是什么？这是我如何创建该系列的一个示例： CL2014 = data_total['Charity Lottery'].where(data_total['Date'].dt.year == 2014)[0:12] CL

浏览 1提问于2019-08-31得票数 1

1回答

如何在熊猫系列中按多个栏目分组

pandas.Series groupby方法使按另一个系列进行分组成为可能，例如： data = {'gender': ['Male', 'Male', 'Female', 'Male'], 'age': [20, 21, 20, 20]} df = pd.DataFrame(data) grade = pd.Series([5, 6, 7, 4]) grade.groupby(df['age']).mean() 但是，通过使用两列，此方法不适用于组： grade.groupby(

浏览 4提问于2019-12-02得票数 0

1回答

在python中使用multiindex合并多个数据帧

、、、、

我有3个系列，这是由下面显示的代码生成的。我已经展示了下面一个系列的代码。我想使用列(subject_id，hadm_id，icustay_id)合并3个这样的序列/数据帧，但不幸的是，这些标题没有显示为列名。如何将它们转换为列，并使用它们与另一个类似数据类型的序列/数据帧合并 ? 我正在根据下面给出的条件从另一个数据帧(df)生成序列。尽管我已经尝试将这个系列转换为dataframe，但它仍然不显示索引，而是将列名显示为index。我已经展示了下面的输出。我希望在dataframe中看到值'Subject_id'，'hadm_id'，'ic

浏览 13提问于2019-04-09得票数 1

回答已采纳

1回答

当两行的值不同时，如何将两行的值合并/组合到一个系列中？

、、、

我有一个潘达斯系列，其中包含一个索引列和第二列，0。 Index列包含语言的几个缩写。这个索引列中的两个不同的值是"en“表示"English”，"en-gb“表示"British English”。本专栏中还有许多其他值，包括“西班牙语”的"es“，”法语“的"fr”等等。所以这个系列看起来是这样的： Index 0 en 42000 en-gb 500 es 320 und 143 fr 50 列0包含索引列中每个语言值出现在原始dataframe中的次数的

浏览 3提问于2017-10-25得票数 0

1回答

Python向系列groupBy吐痰

、、

我有一个dataframe，我可以在一个特定的列上运行拆分并得到一个系列--但是如何将其他列添加回这个dataframe中呢？或者，我是否在拆分中指定了列a，即groupBy，然后在列b上拆分？投入： ixd _id systemA systemB 0 abc123 1703.0|1144.0 2172.0|735.0 输出:熊猫系列数据(未扩展)用于systemA和B在groupedBy _id上的拆分

浏览 7提问于2022-06-13得票数 0

1回答

如何获取行不同的不同列

、、

我有一个这样的数据帧： Id Name site status 1995 sachin http://www.abcd.co closed 1996 sachin http://www.abcd.co working 1997 sourav http://www.abcd.co closed 1998 sourav http://www.abcd.co working 我想找出对于给定的名称，哪些列可能会有所不同。在本例中，对于每个名称，站点都是相同的(它始终是http://www.abc

浏览 15提问于2018-07-10得票数 -3

回答已采纳

3回答

熊猫在分组时只显示真值

、、

浏览 10提问于2022-04-25得票数 0

2回答

在pd.Series中计算日平均值

、、、

我有一个30s频率的数据帧系列。 df.head() 我想要计算该序列中所有信号的日平均值，但它似乎不起作用。我都试过了 df_average = df.to_period('D') df.resample('D') 我得到了：我想每天只有1行。为什么我会得到更多？谢谢

浏览 28提问于2020-02-20得票数 1

回答已采纳

5回答

从列表中获取每个值，并在数据帧中进行迭代，以汇总具有多个条件的列中的数字值。

、

这是我想用来在名为df的dataframe中迭代的列表值。 np_checkList = np.array(['ALPHA', 'BETA', 'CHARLIE','DELTA']) 这是我想使用np_checklist中的值对列'NAME‘进行循环的数据 df = pd.DataFrame(np.array([['ALPHA',2,'BUY'], ['BETA',5,'BUY'],

浏览 1提问于2021-08-21得票数 0

回答已采纳

3回答

获取列的百分比，该列基于另一列，但具有不同的类别

、、、、

我有以下熊猫系列： Count Pclass Survived 1 0 80 1 136 2 0 97 1 87 3 0 372 1 119 但我想要这样的东西： Count Percentage Pclass Survived 1 0 80

浏览 0提问于2018-09-27得票数 5

回答已采纳

3回答

通过制作系列熊猫；而不是按对象分组

、、、

我有一个交易的Pandas DataFrame： transactions.head(): Amount Date of Transaction Description \ 0 39.95 2017-03-30 Fake_Transaction_One 1 2.39 2017-04-01 Fake_Transaction_Two 2 8.03 2017-04-01 Fake_Transaction_Three 3 34.31

浏览 0提问于2018-07-22得票数 3

回答已采纳

1回答

串联链式过滤器

、、、

方便 # quoting from the SO answer above df = pd.DataFrame( np.random.randn(30,3), columns = ['a','b','c']) df_filtered = df.query('a>0').query('0<b<2') 如果我需要对Series做同样的处理呢？ df = pd.DataFrame({'a': [0, 0, 1, 1, 2, 2], 'b': [1, 2, 3, 4, 5,

浏览 2提问于2016-08-17得票数 2

回答已采纳

1回答

删除具有条件的多索引序列中的某些行

、、、

我希望删除等于0的所有行，因此只有等于4、1、2和3的行保留在下面的系列中。 my_series = df.groupby(by=['Continent','bins']).size() my_series输出： Continent bins Asia (2.212, 15.753] 4 (15.753, 29.227] 1 (29.227, 42.701] 0 (42.701, 56.174]

浏览 4提问于2022-03-29得票数 0

回答已采纳