我目前正在使用Python Record Linkage Toolkit对工作中的数据集执行重复数据消除。在理想的情况下,我只需要使用阻塞或排序邻域来减少记录对索引的大小,但有时我需要对包含超过75k条记录的数据集进行完整索引,这会导致数十亿条记录对。,但不提供任何在单个数据帧内进行重复数据删除的功能。我实际上将这个子集建议合并
所以我有一个满是股票行情的数据框架。他们是MultiIndexed by ticker,然后是date。我想要做的是,只对该数据子集的一个指标列进行标准化。例如,我想让A只根据滚动报价器A对ind1的滚动Zscore上的数据进行标准化,然后对报价器B进行同样的标准化,以此类推。我能够迭代地将这种标准化应用于数据帧的切片,但我正在寻找一种方法来轻松