当我想要计算jaccard时,有4000万个datasets.And,它报告内存error.How来改进我的代码?for line in open("./raw_data1"): #tagid_result = [0]*max_len line = line.strip() if len(fields)<6:
我想以向量化的方式计算从第一个数组的每个向量到第二个数组中的每个向量的L1/曼哈顿距离,这样我就得到了一个(4000,4000)数组。我目前的方法是将(4000,3)分成3个独立的(4000,1)数组并进行广播(类似于这里:Python alternative for calculating pairwise distance between因此,如果您能帮助我创建一个可以计算成对L1距离的广义矢量化方法,