我正在为机器学习模型进行特征提取,每一行我都需要将当前价格与前一个价格进行比较。为此,我按datetime列对数据进行排序,遍历行并保留一个字典,其中的产品ID为键,最后的价格为值。我的数据集非常大,在我的培训集和测试集中大约有500万的“销售额”。即使在一个很小的样本(大约250 k的产品)上,它也需要很长的时间和大量的内存。我在代码的其他部分中使用了同样多的矢量化函数,但我不知道如何使这个部分更高效。我现在要做的是:
data = data.sort_values('date_time')
previous_price = {}
data_list = []
for ind
我有一组数据,如下所示 ID Type value_1 value_2
1 A 12 89
2 A 13 78
3 A 11 92
4 A 9 79
5 B 15 83
6 B 34 91
7 B 2 87
8 B 3 86
9 B 7 85
10 C 9 83
11 C 3 85
12 C 2 87
13 C 12 88
14 C 11 82 我想根据value_1得到每种类型的前3名成员。我想到的唯一解决方案是:首先,将每个类型的数据放入