我正在尝试做一些相对简单的事情,即对包含特定字符串的pandas数据帧中的所有列求和。然后使其成为数据帧中来自sum的新列。这些列都是数值浮点值...我可以获取包含所需字符串的列的列表 StmCol = [col for col in cdf.columns if 'Stm_Rate' in col] 但是当
我使用列表理解来索引一个numpy数组,并对这些值求和: df[col]=np.array([A_numpy_array[b].sum() for b in B_numpy_array]) 我的A_numpy_array是使用B_numpy_array的元素b进行索引的(它有800-900万个元素)。这部分代码是这个过程需要一段时间的地方,我完全用完了RAM,并开始写入磁盘。 据我所知,列表理解是Python中最有效的方法之一。此外,