文章/答案/技术大牛

发布

社区首页 >问答首页 >在MultiIndex DataFrame上使用reindex在Pandas中插入行

问在MultiIndex DataFrame上使用reindex在Pandas中插入行
EN

Stack Overflow用户

提问于 2017-11-09 07:54:58

回答 1查看 381关注 0票数 3

我有一个大型面板数据框架，其中包括多个日期的多个资产。问题是有些资产并不是每天都有值，所以我希望将当天的空值替换为该资产的最后可用值。

例如：

                       tradeDate   assetId  ticker    Sedol      price
0        2016-01-04 00:00:00.000      1786    3900  B17N9P6        1   
1        2016-01-04 00:00:00.000      2041    1898  B1JNK84        2   
2        2016-01-04 00:00:00.000      2981    CBMG  B9F9PM1        3   
3        2016-01-04 00:00:00.000      3547     MWA  B15RZR4        4   
4        2016-01-04 00:00:00.000      3570    TPLM  B065Y40        5   
5        2016-01-05 00:00:00.000      3995    MHGC  B0YRYS2        1   
6        2016-01-05 00:00:00.000      4110     DSW  B0BV2V6        2   
7        2016-01-05 00:00:00.000      4874     NWE  B03PGL4        3   
8        2016-01-05 00:00:00.000      4982    BOFI  B0637D4        4   
9        2016-01-05 00:00:00.000      5082   ISCTR  B03MYS8        5   
10       2016-01-05 00:00:00.000      5083   KCHOL  B03MVJ8        6

所以我需要做的是在tradeDate和assetIds上建立索引，然后重新建立索引，以便为每个tradedate创建新的行，以便始终有相同数量的assetIds。这将创建包含NaNs的行。我被这一步搞糊涂了，因为我不确定使用多个索引时的语法，以及当tradeDate和assetId列不完全匹配时的语法。

最后，我将不得不用最后一个可用的值替换NaNs。但是，我必须为tradeDate和assetId的两个索引执行此操作。感谢你在这方面的帮助

python

pandas

dataframe

indexing

回答 1

Stack Overflow用户

发布于 2017-11-09 19:30:19

你问题的第一部分被TomAugspurger巧妙地回答了here。

基本上，你需要使用一个聪明的技巧，包括设置多重索引，拆分数据帧，填充缺失的值并再次堆叠它。然后，您应该再次将填充的缺少值转换为NaNs，并使用在带有method='ffill'的pandas中实现的.fillna()方法，以便用最后一个可用的值替换这些NaNs。

首先，让我们生成所需的数据：

import pandas as pd
import numpy as np

data =  [['2016-01-04 00:00:00.000', 1786, '3900', 'B17N9P6', 1],
['2016-01-04 00:00:00.000', 2041, '1898', 'B1JNK84', 2],
['2016-01-04 00:00:00.000', 2981, 'CBMG', 'B9F9PM1', 3],
['2016-01-04 00:00:00.000', 3547, 'MWA', 'B15RZR4', 4],
['2016-01-04 00:00:00.000', 3570, 'TPLM', 'B065Y40', 5],
['2016-01-05 00:00:00.000', 3995, 'MHGC', 'B0YRYS2', 1],
['2016-01-05 00:00:00.000', 4110, 'DSW', 'B0BV2V6', 2],
['2016-01-05 00:00:00.000', 4874, 'NWE', 'B03PGL4', 3],
['2016-01-05 00:00:00.000', 4982, 'BOFI', 'B0637D4', 4],
['2016-01-05 00:00:00.000', 5082, 'ISCTR', 'B03MYS8', 5],
['2016-01-05 00:00:00.000', 5083, 'KCHOL', 'B03MVJ8', 6]]

cols  = ['tradeDate','assetId','ticker','Sedol','price']

然后解决这个问题：

df = pd.DataFrame.from_records(data, columns=cols)

# I used `-1` to fill the empty values, but use whatever value
# does not occur in the dataset
df = df.set_index(['tradeDate', 'assetId']).unstack().fillna(-1).stack()

# Once you have the data frame stacked again, you need to
# convert unknown values to np.nan again
df.replace(-1, np.nan, inplace=True)

# Fill with latest value for given assetId
df = df.groupby(level=['assetId']).fillna(method='ffill')

希望这个答案涵盖了你的问题，否则请让我们知道。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47191732

复制

相似问题

问在MultiIndex DataFrame上使用reindex在Pandas中插入行
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在MultiIndex DataFrame上使用reindex在Pandas中插入行EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在MultiIndex DataFrame上使用reindex在Pandas中插入行
EN