我在做生物医学图像分割任务。我从医院得到的数据被分成训练集,验证集,测试集。但我对分裂感到困惑。
数据由来自不同患者的图像组成,每个患者都有从三维图像中提取的2~32D切片。对于一位患者来说,他或她的2~3片是相邻或彼此接近的,这意味着这些切片只有很小的差异,肉眼几乎看不见。这2~3片分为训练集、测试集和验证集。因此,训练集、测试集和验证集的比例接近1:1:1。
然而,我发现的医学图像数据集的分割主要是基于病人的。三组是不同病人的切片,而不是像医院那样将同一病人的切片分成三组。我举个例子。
示例
设i_j是I患者的第j层切片,i_j和i_j+1是相邻的切片.所有切片编号如下:
1_1 1_2 1_3 / 2_1 2_2 2_3 / 3_1 3_2 3_3 / 4_1 4_2 / 5_1 5_2
医院可能出现的分裂
列车: 1_1 2_1 3_1 4_1 5_1 Val: 1_2 2_2 3_2 4_2 Test
一种可能的分裂阻碍了我
列车: 1_1 1_2 1_3 2_1 2_2 2_3 4_1 4_2 Val: 3_1 3_2 3_3 Test en19#
首先,我认为培训集、验证集和测试集实际上太相似了。这将提高验证集和训练集的准确率,但模型的泛化能力较差。,那么哪种分裂方法是正确的?或者两者都好?
发布于 2021-05-04 16:50:30
你的方式绝对是正确的。医院的方法会导致大规模的过度适应,这正是你所指出的原因。
https://stackoverflow.com/questions/61596143
复制相似问题