我有一些数据和对应的标签,如下所示: data = [img1, img2, img3, ...] # total num of labels is 10 我想创建一个新的子数据集,其中一个类别有1000个样本,其他类别分别有100个样本。因此,子数据集中的总数据量将为1900。(1000 vs 900) (我的意图是为二进制分类创建子数据集) 因此,我需要以相同的数量随机采样所有每个类别的数据。
2列的唯一方法是对行进行采样。我需要随机采样50 x 1行、50 x 2行、50 x 3行、50 x 4行等等,直到59行。理想情况下,每个样本集输出为一个数据帧。因此,我最终得到了59组随机采样的数据。本质上,这与创建数据的随机子集是相同的。
例如,我有这个代码,它产生10个随机采样行的df。sample_df<-df[sample.int(nrow(df