我想建立一个KNN分类器,同时限制训练样本的数量。例如,我有一个包含60K训练样本的MNIST数据集,我正在寻找一种方法来选择这个数据集的一个大小子集n,它将提供最好的分类器(就准确性而言)。下面是一些示例代码来澄清这个问题:
from sklearn.neighbors import KNeighborsCl
我与Scikit-学习的最近的邻居/半径分类与一个预先计算的度量。这意味着,我向分类器的拟合方法传递成对距离的n_samples_train x n_samples_train矩阵。现在我想知道为什么要这样做。用knn学习只意味着“存储样本”,但是距离的计算应该只在泛化过程中进行(在这一步骤中,<em