在Pandas中，减去按ID分组的数据帧中每一年的连续行_按行分组pandas中的数据_pandas根据几列来减去数据帧中的行 - 腾讯云开发者社区

python、pandas、groupby

我使用Pandas创建了一个表，下面是这里提供的材料。创建的表使用了列和行的多个索引。 📷 我试图计算每一年和每一个主题的描述性统计数据，意思是，例如，显示Bob的2013年平均数，Guido的2013年平均数，以及Sue、所有科目和所有年份的平均值。鲍勃的手段将考虑人力资源和临时工的手段。注意:这些类型与巧合是相同的，因为对于实现的表来说并非如此。不包括在截图中的其他主题有不同的类型。我最近接触到的解决方案是通过下面的代码df.groupby(level = 0, axis = 0).describe()。然而，按年份分组的数据也没有按主题分组。

浏览 0提问于2022-01-29得票数 1

1回答

在Python中根据条件创建新列

python、pandas、numpy、dataframe

我有一个数据帧，看起来像这样： DATE FOLIO_ID LAT ... DIA HORA CIUDAD_APROXIMADA 0 11/01/2018 D00001 22.768507 ... 4 15 SAN NICOLAS DE LOS GARZA 1 26/02/2018 D00009 25.708889 ... 1 2 SAN NICOLAS DE LOS GARZA 2 01/01/2018 D00014 25.647176 ... 1 4

浏览 23提问于2020-08-30得票数 0

回答已采纳

1回答

将Pandas行中的值添加到字典

python、pandas

我在Pandas中有一个dataframe，它的列将对应于dict的键和值。 for values in ['A','B']: MYDICT[values] = [] # Initialize to empty list Name ID othercolumns A 5 ... B 6 ... A 3 ... 我正在尝试找到一种简单的方法来将Name的每个值赋给ID，以便MYDICT[NAME].append(ID) 我目前的解决方案是迭代数据帧中的每一行 for index,

浏览 22提问于2020-10-18得票数 3

回答已采纳

1回答

在NetworkX中按年分组，以计算年连接数

python、pandas、pandas-groupby、grouping、networkx

我有一个包含两个ID和年份的数据帧。同一行中的is表示存在连接。我想按年分组，以计算ID每年的总连接数。我使用NetworkX来计算连接数，只考虑了ID1和ID2，但不知道如何按年分组。 import pandas as pd import networkx as nx d = {'ID1': [21, 21, 21, 21, 21], 'ID2': [343252, 44134, 41314, 161345, 89479],'year': [2010, 2010, 2010, 2011, 2011]} df = pd.DataFrame(d

浏览 29提问于2021-11-03得票数 1

回答已采纳

2回答

根据其他列的行值计算数据框中行值的差值

python、pandas

如何计算每一年的行值之间的差异，并在年份发生变化时重新开始计算？我有以下数据帧： df = pd.DataFrame({'year': [2010, 2010, 2010, 2011, 2011, 2011], 'measurement1': [1, 3, 5, 2, 3, 6], 'measurement2': [2, 1, 1, 3, 2, 4]}) 将年份设置为数据框中的索引，以便不计算年份之间的差异。df = df.set_index('year') 我想要得到

浏览 1提问于2020-03-10得票数 0

2回答

如何使用应用于每行多个切片的函数来转换pandas中的DataFrame？

python、pandas

我想将函数f应用于pandas DataFrame的每一行中的许多切片。例如，DataFrame df将如下所示： df = pandas.DataFrame(np.round(np.random.normal(size=(2,49)), 2)) 因此，我有一个2行乘49列的数据帧，并且我的函数需要应用于两行中7个数据点的每个后续切片，以便结果数据帧看起来与输入数据帧相同。我是这样做的： df1=df.copy() df1.T[:7], df1.T[7:14], df1.T[14:21],..., df1.T[43:50] = f(df.T.iloc[:7,:]), f(df.T.iloc[

浏览 9提问于2014-11-16得票数 1

2回答

当存在多个空值时，用熊猫数据帧丢弃行

python、pandas、dataframe

我试图遍历数据帧中的每一行，并检查选定的行是否有3个以上的空值(此部分有效)，然后删除整个行。但是，在尝试从数据帧中删除上述行时，我遇到了一个错误： AttributeError：'NoneType‘对象没有属性'index' 如果这段代码效率低下，请原谅我，我只需要它来工作。 import pandas as pd df = pd.read_csv('data/mycsv.csv') i = 0 while i < len(df.index): if df.iloc[i].isnull().sum() > 3:

浏览 0提问于2021-11-23得票数 0

10回答

在大熊猫中对DataFrame进行混洗/置换

python、numpy、pandas

在pandas中按行或按列混洗数据帧的简单而有效的方法是什么？即如何编写一个函数shuffle(df, n, axis=0)，该函数接受一个数据帧、多个随机n和一个轴(axis=0是行，axis=1是列)，并返回已经被随机n次的数据帧的副本。编辑：关键是在不破坏数据帧的行/列标签的情况下执行此操作。如果你只是混洗df.index，就会丢失所有的信息。我希望生成的df与原始的相同，只是行的顺序或列的顺序不同。 Edit2：我的问题不清楚。当我说对行进行混洗时，我指的是独立地对每一行进行混洗。因此，如果您有两列a和b，我希望每一行都按自己的顺序排列，这样您就不会像将每一行作为一个整体重新排序时那

浏览 114提问于2013-04-03得票数 82

回答已采纳

1回答

在R中拆分Dataframe，使用拆分并保存在新数据帧中

r、time-series

我是R的新手，有以下问题：我处理气象数据(温度和降水)。在我们一年多的时间里，每隔一半就对数据进行量化。所以我有一个大约有17520行的数据帧。我的第一列以以下形式包含日期："year-month-day hour:minute:second" 现在，我只想为每天的参数获取一个值，这意味着我需要对每天进行平均。我设法使用以下表达式按日期拆分数据帧： split(data, as.Date(data$DATE)) 但是现在我有一个问题，那就是我不知道如何处理这种分裂。如果我想保存它，我只能得到某种类型的列表。有没有人知道如何处理拆分后的数据，也就是说，如何平均每天的值，并将平

浏览 1提问于2014-01-06得票数 0

1回答

DataFrame按Enter键拆分列

python、pandas

浏览 21提问于2020-12-22得票数 1

回答已采纳

1回答

将具有相同值的JSON组合成JSON数组- Scala

arrays、json、scala

我已经使用toJSON将包含email，account，id列的数据帧转换为json。每一行都是一个JSON，看起来像：{"email": "xyz", "account": "pqr", "id": "1"}。 id字段不是惟一的，我想将这个JSON数组组合成JSON数组，这样每一行都是一个具有相同JSON值的JSON数组。例如:一行类似于：[{"email": "xyz", "account": "pqr", "id&#

浏览 19提问于2020-09-10得票数 0

1回答

在pandas中使用另一个数据帧快速切片数据帧

python、pandas、dataframe

浏览 2提问于2016-07-16得票数 2

1回答

按行列的多指标分组

python、pandas、aggregate

我使用Pandas创建了一个表，下面是提供的材料。创建的表使用了列和行的多个索引。我试图计算每一年和每一个主题的描述性统计数据，意思是，例如，显示Bob的2013年平均数，Guido的2013年平均数，以及Sue、所有科目和所有年份的平均值。鲍勃的手段将考虑人力资源和临时工的手段。注意:这些类型与巧合是相同的，因为对于实现的表来说并非如此。不包括在截图中的其他主题有不同的类型。我最接近的解决方案是通过下面的代码df.groupby(level = 0, axis = 0).describe() (按年将数据分组)，但是，也没有按主题分组。

浏览 4提问于2022-01-28得票数 2

回答已采纳

4回答

向数据帧添加因子计数

r、dataframe

我有一个数据帧，其中每一行都是关于一个瞳孔的观察。数据帧中的一个向量是学校的id。我已经获得了一个新的向量，每个学校的计数如下： tbsch <- table(dt$school) 现在，我想将相关的计数值添加到dt中的每一行。我使用for()循环遍历dt中的每一行，创建一个包含相关计数的新向量，最后使用cbind()将其添加到dt中，但我认为这非常低效。有没有一种聪明/简单的方法来做到这一点？

浏览 0提问于2012-07-01得票数 3

回答已采纳

1回答

创建pandas数据帧，使用循环重复条目

python、pandas

我正在尝试填充一个数据帧，我用它来绘制一些销售数据，用零填充一年中剩下的几周。我的代码如下： weeks = [x for x in range(max(sales['WEEK']+1),53)] padding = pd.DataFrame(np.zeros((53max(sales['WEEK']+1),len(sales.columns))),index=weeks) 这将返回一个pandas DataFrame，43行x 3列。我真正需要做的是将43行中每一行的索引重复7次，得到一个有301行的DataFrame。我解决不了这个问题，有什么好主意吗？

浏览 6提问于2018-03-02得票数 1

回答已采纳

1回答

基于pyspark的均值漂移聚类

python、pandas、pyspark、pandas-groupby、user-defined-functions

我们正在尝试将一个普通的python代码库迁移到pyspark。议程是对数据帧(以前是pandas，现在是spark)进行一些过滤，然后按user-ids对其进行分组，最后在顶部应用meanshift集群。我在分组数据上使用pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)。但现在，最终输出的表示方式出现了问题。假设我们在输入数据帧中有两列：user-id和location。对于每个用户，我们需要获取所有集群(在location上)，只保留最大的一个，然后返回其属性，这是一个3维向量。让我们假设3元组的列是col-1、col-2和col-3。

浏览 11提问于2019-05-14得票数 0

回答已采纳

1回答

如何用层次指数计算大熊猫的平均数

python-3.x、pandas

我有一个具有1mi行和分层索引(国家、州、城市，按此顺序)的pandas数据帧，每行都有一个产品的价格观察。我如何计算每个国家、州和城市的均值和标准差(请记住，由于我的df很大，我正在避免循环)？对于每个级别的均值和标准差，我希望将值保存在此数据框中的新列中，以供将来访问。

浏览 16提问于2017-06-23得票数 1

回答已采纳

2回答

Python Pandas:按多列对数据帧进行排序，但排序顺序不同

python、pandas、sorting

我有一个关于在Pandas中排序数据帧的问题。例如，我有一个数据帧'df_cars‘，其中列有'Year'，'Model'，'Mileage'，'Price’。我想要显示按“年”(desc)和“里程”(asc)排序的数据帧。我知道如何按多个列排序，但顺序相同(asc/或desc)： print(df_cars.sort_values(by=['Year','Price'], inplace = False, ascending = True) “Year”和“Price”的值都将按升序排序。

浏览 0提问于2020-12-17得票数 0

1回答

计算SSRS报表中多个组列之间的差异

reporting-services、ssrs-2012

在堆栈溢出的第一篇文章-所以请原谅我，如果我没有做到这一点。我有一个SSRS报告与一个矩阵，按数量，总支出和每年的平均成本按零件编号分组。零件编号和描述沿着左边和沿顶部的年份。我想在第一年之后的每一年中添加一个delta列，显示价格与前一年相比的变化。我看到了如何获得第一年和去年的区别的例子，但没有看到每年与前一年之间的区别。我已经隐藏了德尔塔列的第一年-不喜欢一些指导如何计算差异的成本。因此，从FY2019下delta列的第一行下方的图像来看，随着价格从0.59下降到0.58，-€0.01将显示出来。

浏览 0提问于2021-10-22得票数 0

回答已采纳

1回答

多年数据集中一年内的不同季节

r、dplyr、tidyverse

我有一个为ID分配了多年的数据集。我正在尝试为每个ID按一年内的夏季月份和冬季月份过滤数据。例如，我希望获得ID 1的夏季和冬季月份，分别为2010、2011、2012和2013。在实际数据集中，每个ID在数据集中的年数各不相同。这是我到目前为止所知道的： library(lubridate) library(tidyverse) date <- rep_len(seq(dmy("01-01-2010"), dmy("31-12-2013"), by = "days"),1000) ID <- rep(seq(1, 5), 10

浏览 12提问于2021-05-15得票数 1

回答已采纳

3回答

DataFrames -平均列数

python、pandas、numpy、dataframe

我在pandas中有以下数据框架 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我希望创建一个数据帧，其中包含列1和列2，列3和列4的平均值，等等。 ColumnAvg(12) ColumnAvg(34) 2 3 1.5 1.5 我用的是这个，但它是所有东西的平均值。 df.mean(axis=1) 有没有办

浏览 40提问于2020-09-20得票数 3

回答已采纳

1回答

获得以前的值Pandas

python、python-2.7、pandas

我正在为机器学习模型进行特征提取，每一行我都需要将当前价格与前一个价格进行比较。为此，我按datetime列对数据进行排序，遍历行并保留一个字典，其中的产品ID为键，最后的价格为值。我的数据集非常大，在我的培训集和测试集中大约有500万的“销售额”。即使在一个很小的样本(大约250 k的产品)上，它也需要很长的时间和大量的内存。我在代码的其他部分中使用了同样多的矢量化函数，但我不知道如何使这个部分更高效。我现在要做的是： data = data.sort_values('date_time') previous_price = {} data_list = [] for ind

浏览 0提问于2016-05-25得票数 0

回答已采纳

2回答

熊猫数据帧重新采样周，从一年的第一天开始

python、pandas、dataframe、resampling、week-number

我有一个包含每小时数据的数据帧，我希望获得一年中每周的最大值，因此我使用重采样按周对数据进行分组 weeks = data.resample("W").max() 问题是week max是从一年的第一个星期一开始计算的，而我希望它是从一年的第一天开始计算的。我得到了如下结果，你可以注意到有53周，最后一周是根据下一年计算的，而2017年在数据中不存在 Date dots 2016-01-03 0.647786 2016-01-10 0.917071 2016-01-17 0.667857 2016-01-24 0.669286 2016-

浏览 32提问于2019-05-13得票数 1

回答已采纳

1回答

使用基准年计算数据帧子集的百分比变化

r、time-series

我有以下数据集，其中包含了两家公司在五年内的销售数据。我想用第一年的数字作为基线，并计算每一家公司随后各年销售额的百分比变化。我使用以下方法： transform(dataset, SalesD = unlist(aggregate(Sales ~ Company, function(x) ((x - x[1]) / x[1]) * 100, data=Dataset)$Sales)) 然而，我没有得到第二家公司的正确值(我预计第6行的值为零，因为这是基准年)。以下是研究结果： +----+---------+------+--------+--------+ | ID | Company |

浏览 1提问于2016-01-02得票数 2

回答已采纳

2回答

使用Seaborn或Matplotlib生成折线图，色调为:年，月为X轴，浮动列为Y轴

python、pandas、dataframe、matplotlib、seaborn

问题是，我正在尝试使用seaborn.lineplot()函数生成折线图，但似乎找不到一种方法来生成如下所示的折线图： https://i.stack.imgur.com/zUKog.png 我的数据集有以下列:年、月、日、单位、每单位价格、销售额。我使用了pandas的groupby函数来计算每个月每一年的销售总额。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns years_list = [date.strftime('%Y/%#-m/%#-

浏览 30提问于2020-12-15得票数 0

回答已采纳

1回答

Pandas:根据另一列查找具有附加条件的一列的重复行对

python、pandas

我有一个包含2列(TrackTRUEPt，EventNumber)和大约500k条目的Pandas数据帧。我想保持成对的数据点具有相同的TrackTRUEPt值，但另外还有±1的EventNumber差，即连续的EventNumbers。我不能简单地使用“duplicated”方法，因为在我的数据帧中，通常有两个以上的数据点具有相同的TrackTRUEPt值，所以duplicated会保留所有数据点，而不仅仅是我想要的对。 TrackTRUEPt EventNumber 0 15049.719727 1 1 15049.719727

浏览 6提问于2020-03-27得票数 0

回答已采纳

1回答

NaT上的groupby优先与groupby中的NaN不同

pandas

我有一个数据帧，我想首先使用groupby方法来收集每列的第一个时间戳。 import pandas as pd from pandas import DataFrame import datetime as dt ts1 = dt.datetime.now() ts2 = dt.datetime.now() ts3 = dt.datetime.now() DFdate=DataFrame([{'timestamp1':ts1,'ID':'A'},{'timestamp2':ts2,'ID':'A

浏览 0提问于2015-07-13得票数 2

5回答

如何逐步减少pandas数据帧列中的值

python、pandas

假设我有一个数据帧，如下所示： [1] df name value a 116 b 116 c 116 d 225 e 225 f 225 g 225 现在我想让df变成 name value a 116 b 115 c 114 d 225 e 224 f 223 g 222 也就是说，只要原始

浏览 0提问于2018-07-09得票数 3

3回答

在dataframe中复制x次行-提高性能

python、pandas、dataframe

我正在寻找复制数据帧行的最有效的解决方案。每一行都应该复制x次，其中x对于每一行都是唯一的。假设这是我给定的数据帧： | id | count | |----|-------| | a | 1 | | b | 2 | | c | 5 | 因此，数据帧应该如下所示，其中每一行都按照“count”列中给出的数量进行了复制： | id | count | |----|-------| | a | 1 | | b | 2 | | b | 2 | | c | 5 | | c | 5 | | c | 5 | | c

浏览 1提问于2020-08-24得票数 4

1回答

减少MFCC输出

python、mfcc、audio-analysis

我正在尝试使用python库分析歌曲音频，输出是一个numpy数组，该数组的大小非常大，因为MFCC是为音频的每一帧计算的。当我将此输出写入文件时，每首歌曲的输出大小约为3-4MB。有没有一种方法可以将N帧信息减少到一行特征中？ )

浏览 19提问于2018-11-15得票数 0

1回答

两种不同时间指标的熊猫数据运算(除法)

python、pandas、divide

试图将一个数据帧中的列与多年来的日时间索引划分为第二个数据帧的列，该列按年的日期进行索引。例如，每天建立数据索引。创建第二个按日期计算中值的数据。 import pandas as pd import numpy.random as npr rng = pd.date_range('1/1/2010', periods=365*5, freq='D') df1 = pd.DataFrame(npr.randn(len(rng)), index=rng) df_med = df1.groupby(lambda x: x.d

浏览 2提问于2015-05-22得票数 1

回答已采纳

1回答

寻找非NAN值组的首指标和结束索引

arrays、matlab

我有两行，表示时间序列中的数据： row1 = [1, 2, 3, nan, 5, 6, nan, nan, nan, 10]; row2 = [10, 9, nan, 8, 7, 6, 5, nan, nan, nan]; 每一行中的数据是一个传感器读取，时间间隔是已知的(因此每个数据点是1秒间隔)。不是非常重要，只是一些背景。行的长度是>10000元素。我需要找到连续样本的平均(平均)读数。例如，第一行我需要平均1，2，3，平均5，6和平均数10。同样，对于第2行，我需要平均10，9，8，7，6，5。然后，我需要从这个范围中减去平均值，以便第一个量程[1, 2, 3] [1, 2

浏览 2提问于2021-04-02得票数 1

回答已采纳

1回答

如何向R中的现有列添加方法

我正在操纵一个数据集，但我无法使事情正确。这里有一个例子，其中df是数据帧的名称。 year ID value 2013 1 10 2013 2 20 2013 3 10 2014 1 20 2014 2 20 2014 3 30 2015 1 20 2015 2 10 2015 3 30 所以我试着制作另一个数据帧df1 <- aggregate(value ~ year, df, mean, rm.na=T) 并制作了这个数据帧df1 year ID va

浏览 0提问于2017-07-22得票数 2

回答已采纳

1回答

初学者R:使用事件数据，创建一系列包含分类变量和的新数据帧

我有一组事件数据，大致格式如下： Incident # Date Year State Criminal Offense Location 155k事件。我想创建一个新的数据帧序列，对未分组的数据进行分组(即，与此链接中的第一步相反：)。我希望数据帧包含上述最后两列中每一列的每个分类计数的每一年/每个州的总数(但每个年份-州组合只有一行)，因此它将是两个单独的数据帧： Year State Sum of Criminal Offense 1 Sum of Criminal Offense 2 Sum of Crim 3 和 Year State

浏览 0提问于2014-05-30得票数 0

2回答

根据另一列的值向python pandas数据框添加列

python、pandas

我有一些pandas数据框，我想添加一列，这是一列的差异，基于第三列的值。下面是一个玩具示例： import pandas as pd import numpy as np d = {'one' : pd.Series(range(4), index=['a', 'b', 'c', 'd']), 'two' : pd.Series(range(4), index=['a', 'b', 'c', 'd'

浏览 1提问于2014-08-26得票数 0

2回答

创建pandas数据帧:在numpy上映射函数

python、pandas、numpy、dataframe

我正在创建一个pandas数据帧，并使用numpy来模拟值。我想将随机生成的in分配给pandas中的两列，为此，我编写了一个返回字母数字in的函数。但是，在我当前的代码中，它只调用该函数一次，并为所有行返回相同的ids。我需要为每一行提供唯一的ids，因此需要高效地迭代pandas数据帧。理想情况下，.apply可以做到这一点，但是，我需要在创建pandas数据帧时完成这项工作。下面是我的代码： # Generate alphanumeric lease id and property ids def gen_ids(length): ids = ''

浏览 20提问于2020-07-04得票数 1

回答已采纳

1回答

熊猫看csv类档案

excel、pandas、export-to-csv

我正在尝试将一个Excel文件读取到pandas中，但我得到了消息format and extension of the file don't match。当我尝试使用read_excel时，我会收到一条错误消息，因此我正在使用read_csv。这就是问题所在；我的“Excel like”文件在一些行上有空单元格，它创建了一个奇怪的df，其中一些字段被移动：我的代码如下： 2010 = pd.read_csv(r'{0}\\file.xls'.format(path_temp),sep = r'\t*',encoding='iso-

浏览 1提问于2017-05-26得票数 0

回答已采纳

1回答

如何在pycharm控制台中设置pandas数据帧输出上下对齐？

python、pandas、dataframe、pycharm

在我使用之前 pd.set_option('expand_frame_repr', False) pycharm控制台中的pandas输出是按行上下对齐：我想查看所有的数据框列，所以我输入： pd.set_option('expand_frame_repr', True) 但在此之后，pycharm控制台中的数据帧的输出不是按行向上/向下对齐，它看起来是这样的：输出非常糟糕，因为pandas数据帧没有按行对齐，那么我如何才能使行再次对齐？

浏览 4提问于2018-04-10得票数 2

1回答

使用glob函数将每个concat文件合并成一个finel

python、pandas、numpy、concatenation、glob

我有一个文件夹，其中包含1220个excel文件。1220个文件是来自305点的4个参数，例如： P1-a.xlsx P1-b.xlsx P1-c.xlsx P1-d.xlsx P2-a.xlsx P2-b.xlsx P2-c.xlsx P2-d.xlsx . . . P305-a.xlsx P305-b.xlsx P305-c.xlsx P305-d.xlsx 下面的代码可以将所有1220个文件合并为一个数据帧(Final_df)： import os import glob import pandas fileList=glob.glob("*.xlsx&#

浏览 0提问于2022-06-30得票数 0

1回答

Group_by()没有像我预期的那样分组

r、dplyr、tidyverse

我正在尝试使用bomrang包和tidyverse.汇总一些降雨数据，我尝试使用dplyr::group_by(year)来计算年平均降雨量，然后使用summarise和mean来计算。但是，我没有得到不同的年度平均值，而是在整个数据帧中获得了相同的平均值。 # load the libraries library(bomrang) library(tidyverse) # get the data perth <- get_historical(009225, "rain") # group by year and calculate average rainfal

浏览 15提问于2019-11-11得票数 0

回答已采纳

1回答

对数据帧中的子集行使用lapply .不正确的尺寸错误数

r、lapply、subset

我有一个名为“情景基”的列表，其中包含40个数据帧，每326行68列。我想使用lapply()对数据帧进行子集，以便它们只保留第33行-152行。我编写了一个名为trim()的简单函数(如下所示)，并试图将其应用于数据帧列表，但得到了一条错误消息。该函数和我在lapply中使用它的尝试如下： trim <-函数(i ){(i <- i33:152，)} 适用于(场景、装饰) 错误的i33:152，：不正确的尺寸数当我试图对列表中包含的单个数据帧(soil11base.txt)执行相同的操作时(如下所示)，它将按预期工作： soil11base.txt <- soi

浏览 0提问于2014-01-21得票数 2

1回答

计数超过限制的连续行

python、pandas、dataframe

我有一个数据帧，由名称和每0.1秒的速度测量值组成。我想要得到速度超过限速0.3秒(即连续3行)的次数。 limit = 25.3 Name speed time Mary 25.6 0.1 Mary 25.8 0.2 Mary 25.1 0.3 Mary 24.4 0.4 Mary 24.2 0.5 Mary 25.8 0.6 Mary 25.9 0.7 Mary 25.8 0.8 Mary 25.4 0.9 Mary 24.9 1.0 Mary 25.6 1.1 Mar

浏览 22提问于2021-10-13得票数 1

回答已采纳

1回答

Pandas:按日期分组并查找每个日期的最小n

python、pandas、group-by

我有一个不同日期的数据帧，每个日期有一组ID。我想按日期分组，然后按该日期的某个列(数量)选择最小的3行。我正在尝试像下面这样的Pandas函数，但得到了多个错误。这似乎是一个可行的split-apply-combine方法--你能帮我理解我哪里错了吗？ df.groupby(['OriginalAmount']).apply(nsmallest(2)) df.groupby(['OriginalAmount']).nsmallest(2).groupby(level='OriginalAmount') 下面是示例数据帧，以及当n_smalle

浏览 6提问于2018-07-24得票数 3

回答已采纳

2回答

如何使用相同的索引细分pandas数据帧

python、pandas

我有以下数据作为csv文件： ? 我想在每10个时隙之后将其细分为3个数据帧，它们应该如下所示： ? 重要的是，索引时隙应该用于3个数据帧中的每一个。到目前为止，我有以下代码： import pandas as pd dataframe = pd.read_csv("C:/Users/User_1/Desktop/Data.csv", sep =";", index_col=False ) 一个问题是，当我读取数据时，它会自动创建一个我不想要的索引，尽管它使用了参数index_col=False。您知道如何将初始数据集细分为具有相同索引的

浏览 18提问于2021-06-25得票数 2

2回答

每隔n行重复m次

python、pandas、dataframe、repeat

这是一个非常简单的问题，我在想，如果可能的话，有没有不使用循环的简单技术，它一定已经在某个地方得到了答案，但我找不到它。我有一个1014行的数据帧，我想要做的是重复前6行n次，然后在前6行之后重复6行n次，类似地每6行重复一次假设有一个简单的例子 import pandas as pd df = pd.DataFrame({'X': [1,2,9,2,3,1,2,4], 'Y': [6,7,8,9,0,4,6,7]}) 让我们每两行重复3次。(例如，前2行和后2行重复了3次)所以我想得到的是 import panda

浏览 3提问于2020-08-08得票数 1

1回答

按多列对数据帧进行分组

python、pandas

我想按多列对Pandas Dataframe进行分组。每行都有一个整数、一个名称和一个额外的数值。我希望最终的Dataframe包含名称具有最高整数的每一行。 values = {'Int': [1,1,1,2,2,1], 'Name': ['Tom', 'Jim', 'Jan','Tom', 'Tom', 'Lucas'], 'Bill':[0.5,0.2,0.2,0.7, 0.8, 0.2]} df = p

浏览 0提问于2019-04-08得票数 0

2回答

移动dataframe中的所有行

python、numpy、pandas、dask

在Pandas中，有一个方法DataFrame.shift(n)将数组的内容相对于索引移动n行，类似于np.roll(a，n)。我似乎找不到办法让达斯克有类似的行为。我意识到，像行轮班这样的事情可能很难用达斯克的分块系统来管理，但我不知道有什么更好的方法来将每一行与下一排进行比较。我想要做的是： import numpy as np import pandas as pd import dask.DataFrame as dd with pd.HDFStore(path) as store: data = dd.from_hdf(store, 'sim')[col1

浏览 6提问于2015-12-11得票数 6

回答已采纳

2回答

在Pandas中获取每两行有差异的新数据帧

python、pandas、dataframe、rows、difference

我在Pandas中有一个类似上面的数据帧： A B C 0 1 10 43 1 2 12 34 2 1 9 57 3 2 7 47 4 1 6 30 5 2 10 31 我想做的是根据A列计算每两行的差值(本质上是在A=1 -A=2时得到所有其他列的差值)。所以，我想要想出这样的东西： B C 0 -2 9 1 2 10 2 -4 -1 我知道diff()函数，但它似乎没有完成我想要做的事情。有什么办法吗？

浏览 15提问于2019-03-08得票数 5

回答已采纳

1回答

将Pandas行转换为数组矩阵

python、pandas、numpy、matrix

我想将每一行从一个pandas数据帧转换成一个数组，然后用它们创建一个矩阵。我知道如何使用列： X = np.matrix([df['colA'].values, df['ColB'].values]) 我怎么才能按列做呢？更多详细信息：这是我的数据帧示例： ? 我想要的输出是这样的(现在请不要注意数字)： [[36.10062, -115.2948], #row 0 [36.10062, -116.2948], #row 1 [34.10062, -112.2948], #row 2 [38.10062, -111.2948]] #

浏览 37提问于2019-02-09得票数 0

1回答

Pandas数据帧多个数据库表

python、python-3.x、database、pandas、postgresql

我有一个API包装器，可以从特定的产品中提取数据。我面临着如何将json数据映射到数据库(postgresql)的问题。我已经阅读了Pandas dataframe，但我不确定这是不是正确的方法。我有几个问题需要帮助。 1)是否可以选择哪些行可以进入数据帧？ 2)数据帧内的每一行都需要插入到两个不同的数据库表中。我需要在TableA中插入10列，获得新插入行的id，然后在TableB中插入5列，包括返回的id。我该怎么做呢？ 3)是否可以为数据帧中的每一列指定数据类型？ 4)是否可以将列名称重命名为数据库字段名称？ 5)是否可以遍历特定的列并替换某些数据？对于我正在尝试实现的目标，有没有可以

浏览 14提问于2020-05-15得票数 1

回答已采纳