在过去的几天里,我试图使用KMeans算法来实现SciKit ,但是我遇到了一个非常令人困惑的问题。我有一个有两个类标签['ALL', 'AML']的数据集,其中有ALL has 47和AML has 25样本以及100属性,现在我想使用这个数据集进行KMeans聚类,以便将预测的结果与原始的类标签进行比较然后再运行一次算法,得到了44%的精度。第三次尝试,我得到了33%等等。
但是,我仔细研究了一下,并了解到r
我有一个数据集的2000 256 x 256 x3图像,以训练一个CNN模型(约3000万可训练参数)的像素级二进制分类。在训练之前,我想把它分成验证和测试集。现在,我已经从了解了所有的答案。那么,我的问题是:是否有一种方法/技术来选择用于验证和测试的最小数据集,该数据集代表了整个数据集的所有差异?我有一个最小的数据集约束,因为我有非常少的数据。增强可能