如何对pandas多索引中的列进行操作_使用列中的值对pandas数据帧进行多索引_对Pandas列中的列表进行操作 - 腾讯云开发者社区

、、、

我正在处理熊猫中的多重索引数据，我想知道是应该多索引行还是列。我的数据如下所示：代码： import numpy as np import pandas as pd arrays = pd.tools.util.cartesian_product([['condition1', 'condition2'], ['patient1', 'patient2'],

浏览 2提问于2014-02-27得票数 5

1回答

如何为pandas中的多索引切片赋值

、

import pandas as pd import numpy as np df = pd.DataFrame(np.zeros([4,1]), index=pd.MultiIndex.from_product([[0,1], ['a','b']])) df.loc[(slice(None), 'a'), 0] = pd.Series({1:2, 0:3}) df 给出我找到了几个建议将.values添加到右侧的地方，但这给出了错误的结果(它切换了2和3，因为我故意将右侧的序列放在“错误”的顺序中)，因为我确实需要pandas为我

浏览 0提问于2021-02-01得票数 0

1回答

是什么改变了这个pandas代码中的日期类型？

、、

我在Pandas中有一个数据框，其中包含日期和其他一些数据。日期是显式的datetime.date类型。在本例中，我手动强制执行此操作。在实际问题中，框架是从已经设置好的外部源导入的。在操作索引之后，我发现我的dates属于pandas._libs.tslib.Timestamp类，这会导致与后面的代码不兼容。是什么导致了类型/类的变化？最小工作示例(注意第3行和第7行之间的区别)： In [1]: df = pd.DataFrame({'date' : ['02/20/2015','01/15/2016','08/21/2015

浏览 9提问于2019-07-10得票数 1

回答已采纳

3回答

pandas read_csv index_col=None不使用每行末尾的分隔符

、

我正在阅读“Python for Data Analysis”这本书，但在“Example: 2012联邦选举委员会数据库”部分将数据读取到DataFrame时遇到了问题。问题是其中一列数据总是被设置为索引列，即使index_col参数设置为None也是如此。下面是指向数据的链接：。下面是加载代码(为了节省检查时间，我设置了nrows=10)： import pandas as pd fec = pd.read_csv('P00000001-ALL.csv',nrows=10,index_col=None) 为了保持简短，我排除了数据列输出，但以下是我的输出(请不要使用索引

浏览 2提问于2012-10-19得票数 63

回答已采纳

2回答

计算MultiIndex DataFrame的平均值

、、

我必须根据该级别的行数来计算MultiIndex DataFrame的平均值。基本上，我必须对最后一列中的值求和，然后除以每个SKU_ID索引的每月行数，从而求出这些值的平均值。我如何在Pandas中继续？谢谢

浏览 0提问于2019-04-04得票数 0

2回答

如何从数据帧中删除任何行中包含特定值的列

、、、

在pandas数据帧中，我需要找到任意行中包含零的列，并删除整个列。例如，如果我的数据帧看起来像这样： A B C D E F G H 0 1 0 1 0 1 1 1 1 1 0 1 1 1 1 0 1 1 我需要删除列A、B、D和F。我知道如何删除这些列，但是以编程方式识别带有零的一列让我摸不着头脑。

浏览 17提问于2018-12-27得票数 2

回答已采纳

1回答

从系列中获取信息的Python熊猫多索引

、、

我从一个时刻表中创建了一个多索引熊猫系列，现在我想要阅读其中的数据。在我看到的所有示例中，本系列的列或级别都是命名的。然而，在我的系列文章中，情况并非如此。在这个多重索引中，第一级是日期，第二级是一天中的小时。数据列具有我想要读取的值。从我的系列中获取我想要的数据的最简单的方法是什么？下面的代码应该是非常清楚的。 import pandas as pd import numpy as np n = 1000 t = pd.date_range(start ='2012-01-01', periods=n, freq='10T')

浏览 2提问于2015-04-08得票数 1

回答已采纳

3回答

AttributeError：'DataFrame‘对象没有属性'sort_values’

、、、、

我只是想通过一个特定的列来订购dataframe。代码1 --如果我称它为ddf，则显示为ddf。 my_ddf 输出1 npartitions=1 headers ..... 代码2 my_ddf.sort_values('id', ascending=False) 输出2 AttributeError Traceback (most recent call last) <ipython-input-374-35ce4bd06557> in <module> ----> 1 my_dd

浏览 5提问于2021-01-27得票数 2

回答已采纳

1回答

将函数应用于MultiIndex pandas.DataFrame列

、、、

我有一个MultiIndex DataFrame，其中我想将一个函数应用到它的一个列中，并将结果分配给同一列。 In [1]: import numpy as np import pandas as pd cols = ['One', 'Two', 'Three', 'Four', 'Five'] df = pd.DataFrame(np.array(list('ABCDEFGHIJKLMNO'), dtype='object').reshape(3,

浏览 4提问于2014-04-08得票数 5

回答已采纳

1回答

在jupyter笔记本中从熊猫数据中选择单行时发生的Python键错误

、、、

我成功地用StackOverflow解决了许多问题，但这是我第一次在其他地方找不到问题，自己也解决不了. 我在jupyter笔记本上工作，里面有熊猫的数据，包括文字评论和亚马逊产品的评分。下面是我的代码： import pandas as pd data = pd.read_csv("AmazonSampleForStudentOffice.csv") reviews = data[['reviewText', 'score', 'len_text']] reviews.head(5) 其结果是： reviewText scor

浏览 0提问于2020-03-31得票数 1

回答已采纳

1回答

使用pandas中的索引列查看或过滤？

、

使用Python的pandas库，我导入了一个csv并将多个列设置为我的索引。出乎意料的是，当我显示数据帧时，索引列不再存在，并且我不能使用索引列作为过滤器选项。这让我想知道我是否错误地认为pandas索引类似于SQL索引。 date, exchange, symbol, low, high, open, close, last exchange和symbol足以唯一标识一行。它是加快了查找速度，还是添加了一些对stack/unstack/pivot/groupby之类的东西有用的语义信息？它能减少内存使用量吗？为什么要将日期、交换和符号移出数据帧(并移到索引系列中？)？把它们留在dat

浏览 1提问于2014-09-19得票数 0

4回答

选择panda数据帧的列名部分

、、

如果我有200多列，每列都有很长的名称，并且我想删除名称的第一部分，我该如何使用pandas来实现呢？

浏览 0提问于2019-10-21得票数 0

2回答

如何在H2OFrame中删除行？

、

我在python包中工作了很长一段时间，但最近不得不转向h2o包。在大多数情况下，H2OFrame被设计为像pandas DataFrame对象一样工作。然而，有几个障碍我还没有克服……在Pandas中，如果我想删除一些行： df.drop([0,1,2], axis=0, inplace=True) 但是，我想不出如何对H2OFrame做同样的事情 frame.drop([0,1,2], axis=0) --------------------------------------------------------------------------- TypeError

浏览 12提问于2016-07-13得票数 7

回答已采纳

1回答

熊猫索引与复制错误

、

我的dataframe中有Data2列。我试图通过向NewCol列应用一个筛选器来创建一个新列(‘Data2’)。下面的代码工作，新列的结果是正确的。但在运行代码时，我会得到以下错误消息。我怎么才能解决这个问题？我认为这会影响性能。 C:\Python27\lib\site-packages\IPython\kernel__main__.py:2: SettingWithCopyWarning:值试图在来自DataFrame的片的副本上设置。请参阅文档中的注意事项： # In[1]: import pandas as pd import numpy as np from pandas im

浏览 2提问于2015-08-27得票数 0

2回答

设置Mysql索引组列或单独列

我有一个查询SELECT.. WHERE user_id='' && date>:expire && used=0; 当我尝试创建索引时。我是否应该在一个查询中创建所有的内容，比如 CREATE INDEX new_index ON table (user_id, date, used) 或者我应该将它们分开并为每一列创建索引？

浏览 2提问于2013-09-18得票数 1

回答已采纳

1回答

在MultiIndex DataFrame中基于一级列的删除重复项

、、

浏览 2提问于2019-09-20得票数 4

回答已采纳

1回答

如何向grouped by数据透视表Pandas中的列添加条件

、、、、

我使用了pandas包中的group by和pivot table来创建下面的表：输入： q4 = q1[['category','Month']].groupby(['category','Month']).Month.agg({'Count':'count'}).reset_index() q4 = pd.DataFrame(q4.pivot(index='category',columns='Month').reset_index()) 然后输出： categ

浏览 1提问于2018-09-23得票数 0

7回答

是否同时对列和索引值对pandas数据帧进行排序？

、、、

按列的值和索引对pandas dataframe进行排序是否可行？如果按列的值对pandas数据帧进行排序，则可以得到按列排序的结果数据帧，但不幸的是，您会看到数据帧的索引顺序与排序列的值相同。那么，我是否可以按列对数据帧进行排序，例如名为count的列，但也可以按索引值对其进行排序？按降序对列进行排序也是可行的，但是按升序对索引进行排序是否可行呢？我知道如何对dataframe中的多个列进行排序，也知道通过首先对索引执行reset_index()并对其进行排序，然后再次创建索引，就可以实现这里所要求的结果。但是，这是不是更直观、更有效的方法呢？

浏览 2提问于2013-11-29得票数 59

2回答

使用fluent api的唯一索引

、、

我有桌子的人，订单和PersonOrder。在表PersonOrder中，我有一个列PersonId和OrderId。如何使用Fluent API在这些列之间创建unique index 这是我的尝试： modelBuilder.Entity<PersonOrder>() .HasKey(l => new { l.PersonId , l.OrderId}); [Table("PersonOrder")] public class PersonOrder { public int PersonId { get; set;

浏览 0提问于2013-05-19得票数 0

回答已采纳

1回答

Pandas数据帧中两列的差异

、、

嗨，我试着从Excel中得到两列，并解析成一个DataFrame，之后我需要减去这两列。这是我的代码 ndf = xw.Range('AI1:AJ' + str(len(last_row))).options(pd.DataFrame).value #Error in this line below ndf['VC-BC'] = ndf['VC'] - ndf['BC'] #xw.Range("BH1").options(index=False).value = ndf print(ndf.head(20

浏览 16提问于2020-06-17得票数 0

回答已采纳

1回答

使用MultiIndex实现数据帧中两个字段的分组和求和

、、、、

我正在尝试做一个GroupBy和Sum，但这有点棘手，因为我认为我需要基于数据框中的两个头来做这件事。我需要在一个特定的数据帧中有两个头，所以我会相应地设置它。 df = pd.read_csv(f, delimiter='\t', skiprows=0, header=[0,1]) 当我列出我的数据框中的所有字段时，我看到了以下内容。 my_list = list(df_append) my_list 然后..。 [('IDRSSD', 'Unnamed: 0_level_1'), ('RCFD3531',

浏览 23提问于2021-01-16得票数 0

回答已采纳

3回答

在MYSQL中，何时一个索引比两个索引更好

、、、

我读到过，当您创建多列索引时，顺序很重要，通常您希望列首先出现在WHERE子句中，然后其他列将按order BY等顺序出现。然而，如果您只对每个列分别进行索引，难道不会获得更快的速度吗？(显然不是，因为我自己的实验表明，组合索引行为可以比简单地对每个索引进行单独索引要快得多)。什么时候应该使用多列索引，它对哪些类型的查询有促进作用？

浏览 4提问于2011-12-11得票数 0

回答已采纳

2回答

python面板通过丢失列名进行分组

、

有3列， ACCOUNT, DATE, AMOUNT 我正在尝试在pandas中做以下事情，并计划在group by output dataframe之后使用"sum“列来做更多的工作： df_group_by=df.groupby('account').agg({'amount': [np.size, np.sum]},as_index=False).reset_index() # equal to "SELECT ACCOUNT, SUM(amount) as sum FROM table GROUP BY ACCOUNT;" pr

浏览 1提问于2018-07-18得票数 0

2回答

如何将多个变量传递给pandas dataframe，以便将它们与.map一起使用来创建新列

、

要将多个变量传递给一个普通的python函数，您只需编写如下代码： def a_function(date,string,float): do something.... convert string to int, date = date + (float * int) days return date 在使用Pandas DataFrames时，我知道您可以基于一个列的内容创建一个新列，如下所示： df['new_col']) = df['column_A'].map(a_function) # This m

浏览 2提问于2015-05-22得票数 6

2回答

pandas DataFrame将列划分为其自身

、、

我有一个熊猫数据框，里面填了这个： import pandas.io.data as web test = web.get_data_yahoo('QQQ') 在iPython中，数据帧如下所示： In [13]: test Out[13]: <class 'pandas.core.frame.DataFrame'> DatetimeIndex: 729 entries, 2010-01-04 00:00:00 to 2012-11-23 00:00:00 Data columns: Open 729

浏览 4提问于2012-11-25得票数 3

回答已采纳

1回答

在pandas中，如何从另一个列的一部分创建新列，并遵守某个条件？

、

在python 3和pandas中，我有数据帧： lista_projetos.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 59 entries, 0 to 58 Data columns (total 14 columns): n_projeto 59 non-null object autor 59 non-null object ementa

浏览 1提问于2018-07-26得票数 0

回答已采纳

2回答

实体框架:大数据量的缓慢迁移

、、

我们在数据层使用Entity Framework Core，并发现在具有大量数据(数百万行)的表上执行大量操作时，迁移非常缓慢。例如，目前我们正在调整整个数据库中字符串(varchar)列的大小。随着每一列长度的改变，EF将删除所有的表索引和约束并重新创建它们。例如，如果我们有1个索引和10个更改的列，EF将删除并重新创建索引10次，而不是简单地删除索引一次，更改列，然后再次重新创建索引。在我们的一些表上，一次列更改需要30分钟以上，我们需要进行大约200次列更改。有没有可能改变这种行为，在迁移开始时删除所有索引，并在迁移结束时重新创建它们？

浏览 26提问于2021-02-13得票数 2

回答已采纳

1回答

如何连接多索引数据中的所有列？

、、

我有一个多索引df，我正在尝试连接它。各栏如下： a.columns MultiIndex([( 'Note', '507.3'), ( 'Note', '507.4'), ( 'Note', '507.5'), ( 'Note', '507.6'), ('St

浏览 4提问于2022-05-03得票数 0

回答已采纳

2回答

熊猫HDFStore表不接受多索引列

、、

这样做很好： cols = ['X', 'Y'] ind = [('A', 1), ('B', 2)] ind = pd.MultiIndex.from_tuples(index, names=['foo', 'number']) df = pd.DataFrame(rand(2,2), columns = cols, index=ind) store.put('df', df, table=True) print store['df']

浏览 2提问于2014-01-02得票数 2

回答已采纳

2回答

在pandas中向特定级别的透视表中添加列

、、

我正在尝试使用pandas数据透视表来实现这种多索引形式。 ? 因为原始数据是这样的。 ? 我使用下面的代码table = pd.pivot_table(df, index=str(df.columns[0]), columns =list(df.columns[1:4]), values='Value')来获得这个结果 ? 但是现在我需要将这三列(预测，公差，基线预测)添加到每个子产品的透视表的最详细级别，就像在ECo下添加它们一样，我尝试了这个table[('OcP', 'CoC', 'tolerance'

浏览 51提问于2021-11-10得票数 1

回答已采纳

1回答

datetime groupby/跨不同年份重新采样月份和日期(删除年份)

、、、

我研究了Pandas中的重采样/Timegrouper功能。然而，我正在尝试弄清楚如何在这个特定的案例中使用它。我想对一项金融资产进行季节性分析--比方说标准普尔500指数。我想知道多年来资产在任意两个自定义日期之间的平均表现。例如:如果我有一个10年的标准普尔500指数每日变化的历史，我选择了3月13日和3月23日之间的日期范围，那么我想知道我的范围内的每个日期在过去10年中的平均变化-即过去10年中每年3/13的平均变化，然后是3/14，3/15，直到3/23。这意味着我需要按月和日分组，并计算不同年份的平均值。我可能可以通过为年、月和日创建3个不同的列，然后按其中的两个列进行分组来做

浏览 24提问于2017-02-04得票数 1

2回答

如何将具有多个索引的pandas.core.series.Series对象转换为填充了所有列的pandas Dataframe？

、、、

我有一个具有多个索引的熊猫系列，就像这个图像"target"，"Lastnewjob"，"experienceGroup“。这是pandas.core.series.series类型。我想把它转换成一个数据帧(第二张图)，其中"experienceGroup“值将是列名，而"target"，"Lastnewjob”仍然是列。我想要查看的数据帧使用groupby获取序列的代码。 Job=df.groupby(['target','last_new_job'])['

浏览 1提问于2021-01-26得票数 0

1回答

将pandas数据框保存到csv文件时的附加列

、、、、

这里是处理和保存csv文件的代码，以及原始输入csv文件和输出csv文件的代码，在Python2.7上使用pandas并想知道为什么在保存文件时在开头有一个额外的列？谢谢。 c_a,c_b,c_c,c_d hello,python,pandas,0.0 hi,java,pandas,1.0 ho,c++,numpy,0.0 sample = pd.read_csv('123.csv', header=None, skiprows=1, dtype={0:str, 1:str, 2:str, 3:float}) sample.columns = pd.Index(dat

浏览 3提问于2016-08-28得票数 5

回答已采纳

2回答

pandas -多索引切片未按预期调整索引值

、、、

在Pandas中，我试图过滤出数据帧中具有特定日期(设置为多索引的第一级)的行。过滤后，我想检查第一级的最后一个索引值是否与我的最新日期匹配。但是，我不能让Pandas返回正确的值。举个例子可能会有所帮助。我首先使用multiindex创建原始的df： index = pd.date_range('2016-01-01', freq='B', periods=10), ["AAPL", "GOOG"] df = pd.DataFrame(index=pd.MultiIndex.from_product(index)) prin

浏览 11提问于2017-01-09得票数 3

回答已采纳

1回答

熊猫多索引在给出一个元组时成功，但在列表中失败。

、、、

我有一个列表数组的形式的数据，表单[['Manhattan', 142, 42], [...]]。我有一个包含多个索引的pd.DataFrame，其中包含一个名为VAC的列。下面引发一个ValueError for vac_bbl in vac_bbls: property_profiles['VAC'][vac_bbl] = None 回溯： --------------------------------------------------------------------------- ValueError

浏览 2提问于2016-07-11得票数 2

回答已采纳

1回答

如何广播-将每个ID的第一个日期作为列添加到多索引dataframe？

、、、、

如何将第一个date作为id类别添加到列中？类似于： df = df.broadcast_assign(level="id", colname="Init", data=date_of(df.groupby("id").first()))` 数据 import numpy as np import pandas as pd def time(t): return pd.Timestamp("2019-01-01T12") + pd.to_timedelta(t, "d") arrays = [

浏览 2提问于2021-01-20得票数 1

回答已采纳

4回答

熊猫们读到json没有在MultiIndex上工作

、、

我正在尝试阅读通过df.to_json()通过pd.read_json创建的数据文件，但是我得到了一个ValueError。我认为这可能与索引是一个MultiIndex这一事实有关，但我不知道如何处理。 55k行的原始数据被称为psi，我通过以下方法创建了test.json： psi.head().to_json('test.json') 是print psi.head().to_string()的输出，如果您想使用它的话。当我在这个小数据集(5行)上这样做时，我会得到一个ValueError。 ! wget --no-check-certificate https://gi

浏览 11提问于2014-03-31得票数 12

回答已采纳

1回答

删除Pandas中只有一个零的行

、

我已经使用Pandas导入了一个excel表格，如下所示： w = pd.read_excel(r"C:\Users\lvk\Downloads\Softwares\Prob.xls", header=None) 一旦我导入了excel表格，我需要删除任何列中只有一个零的行。Python中有什么函数可以做到这一点吗？请让我知道。输入： row1: 0 4 3 5 row2: 1 6 5 61 row3: 1 3 6 0 预期输出： 1 6 5 61

浏览 9提问于2020-03-09得票数 0

2回答

核心数据中的多列索引(iOS)

、、、、

我记得在某处读到过有关核心数据(iOS)中的多列索引的内容，但是我在任何地方都找不到该信息。是否可以对iOS5核心数据进行多列索引？我可以在单个列上设置多个索引，但找不到多列索引的选项。

浏览 3提问于2012-05-07得票数 2

回答已采纳

2回答

Pandas遍历行，将列值与列表中的字符串进行比较，从另一列返回值

、、、

目前，我正在尝试迭代数据框，将字符串列表中的每个值与数据框中某一列中的值进行比较。如果比较结果为真，则将同一行的不同列中的值附加到单独的列表中。 list_of_words = 'yes', 'no', 'maybe' appendList = [] for word in list_of_words: for row in dataframe1.iterrows(): if row['A'] == word: appendList.append(

浏览 35提问于2019-03-10得票数 1

回答已采纳

1回答

Python，Pandas删除指定列中具有特定值的行

、、、

Excel电子表格如下所示。对于Pandas，我希望删除“Project C”和“Project E”列，以及“Project A”和“Project D”列中值为“XX”的所有行。 import pandas as pd import numpy as np work_file = "C:\\test.xlsx" df = pd.read_excel(work_file, sheetname = "Sheet1", index_col = 0) column_list_to_remove = [“Project C", “Projec

浏览 4提问于2017-09-22得票数 1

回答已采纳

1回答

优化mysql多个更新

、、、、

我正在尝试优化超过3M行的单个列的更新。列数据存储在pandas数据帧中(行sql索引是已知的)，目前我使用的代码是(使用sqlalchemy进行连接) conn = getConnection(db).connect() trans = conn.begin() try: i=0 for index, row in data.iterrows(): if not np.isnan(row[colName]): i+=1 sql = 'upda

浏览 54提问于2018-06-16得票数 0

3回答

在dataframe列中放置最长字段

、、

我有一个有三列的pandas数据框，都是文本。如何创建一个只包含三列中最长的文本的新列？我将长度定义为简单的字符计数。

浏览 24提问于2019-04-16得票数 1

回答已采纳

2回答

将序列索引设置为具有更多级别的另一个索引

、、

我试图用一个比系列的原始索引包含更多级别的索引( Series，ix)来设置a1的索引。 >>> a = pd.DataFrame({'a': [1, 2, 3], 'b': ['b', 'b', 'b'], 'x': [4, 5, 6]}).set_index(['a', 'b']) >>> a x a b 1 b 4 2 b 5 3 b 6 >>> >>> a1 = a

浏览 1提问于2019-05-15得票数 1

回答已采纳

3回答

Python(pandas)：基于两列删除重复项，将行与标志保留在另一列中

、

python pandas的新手，需要删除重复的索引行，并根据一列的标志在重复行中只保留一行，示例如下： Index value 1 value2 flag 1 10 20 on 1 30 40 off 2 11 22 on 2 32 42 off 3 12 22 on 3 33 43 off 根据index和flag cloumn进行过滤后，输出应为： Index value 1 value2 flag 1 1

浏览 70提问于2019-05-18得票数 0

2回答

Pyspark :选择特定的列及其位置

、

我想知道如何在数据框中使用编号而不是名称来选择特定的列？在Pandas中就像这样： df = df.iloc[:,2] 有可能吗？

浏览 1提问于2018-06-18得票数 8

回答已采纳

1回答

使用返回ValueError的.loc和OR运算符

、、

我尝试在两列中的任何一列中搜索特定值，当找到目标值时，将第三列中的数字从正改为负或将负改为正。 te1 = df.loc[df['Transaction Event'] == 'Exercise'] te2 = df.loc[df['Transaction Event'] == 'Assignment'] te3 = df.loc[df['Transaction Event'] == 'Expiration'] an1 = df.loc[df['Action'] == 'D

浏览 42提问于2019-09-20得票数 4

回答已采纳

2回答

如何在pandas中查找完整的空行

、

我正在处理一个数据集，其中我需要从数据集中查找完整的空列。示例： A B C D nan nan nan nan 1 ss nan 3.0 2 bb w2 4.0 nan nan nan nan 目前，我正在使用 import pandas as pd nan_col=[] for col in df.columns: if df.loc[df[col].isnull()].empty !=True: nan_col.append(col) 但这是在指定的列中捕获空值，但我需要捕获空行。 expected Answer: row [0,3]

浏览 84提问于2021-01-04得票数 2

2回答