首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >GroupSplitShuffle与GroupKFolds的区别

GroupSplitShuffle与GroupKFolds的区别
EN

Stack Overflow用户
提问于 2020-08-21 05:20:51
回答 2查看 705关注 0票数 1

正如标题所说,我想知道sklearn的GroupKFoldGroupShuffleSplit之间的区别。

两者都对具有组ID的数据进行给定的训练测试拆分,因此在拆分中不会将组分开。我检查了每个函数的一个训练/测试集,它们看起来都是一个很好的分层,但如果有人能确认所有的splits都能做到这一点,那就太好了。

我对这两种情况都进行了测试,测试了10个拆分:

代码语言:javascript
复制
gss = GroupShuffleSplit(n_splits=10, train_size=0.8, random_state=42)

 

for train_idx, test_idx in gss.split(X,y,groups):

    print("train:", train_idx, "test:", test_idx)

train: [ 1  2  3  4  5 11 12 13 14 15 16 17 19 20] test: [ 0  6  7  8  9 10 18]

train: [ 1  2  3  4  5  6  7  8  9 10 12 13 14 18 19 20] test: [ 0 11 15 16 17]

train: [ 0  1  3  4  5  6  7  8  9 10 12 13 14 18 19 20] test: [ 2 11 15 16 17]

train: [ 0  2  3  4 11 12 13 14 15 16 17 18 19 20] test: [ 1  5  6  7  8  9 10]

train: [ 0  1  3  4  5  6  7  8  9 10 11 15 16 17 19 20] test: [ 2 12 13 14 18]

train: [ 1  2  3  4  5  6  7  8  9 10 11 15 16 17 18] test: [ 0 12 13 14 19 20]

train: [ 0  1  2  3  4  6  7  8  9 10 11 12 13 14 15 16 17] test: [ 5 18 19 20]

train: [ 0  1  3  4  6  7  8  9 10 11 15 16 17 18 19 20] test: [ 2  5 12 13 14]

train: [ 0  1  3  4  5 12 13 14 15 16 17 18 19 20] test: [ 2  6  7  8  9 10 11]

train: [ 0  2  3  4  5 11 12 13 14 15 16 17 19 20] test: [ 1  6  7  8  9 10 18]

 

group_kfold = GroupKFold(n_splits=10)

 

for train_idx, test_idx in group_kfold.split(X,y,groups):

    print("train:", train_idx, "test:", test_idx)

train: [ 0  1  2  3  4  5 11 12 13 14 15 16 17 18 19 20] test: [ 6  7  8  9 10]

train: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 18 19 20] test: [15 16 17]

train: [ 0  1  2  3  4  5  6  7  8  9 10 11 15 16 17 18 19 20] test: [12 13 14]

train: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18] test: [19 20]

train: [ 0  1  2  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20] test: [3 4]

train: [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 19 20] test: [ 0 18]

train: [ 0  1  2  3  4  5  6  7  8  9 10 12 13 14 15 16 17 18 19 20] test: [11]

train: [ 0  1  2  3  4  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20] test: [5]

train: [ 0  1  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20] test: [2]

train: [ 0  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20] test: [1]
EN

Stack Overflow用户

回答已采纳

发布于 2020-08-21 08:47:26

联合国集团版本的文档更清楚地说明了这一点。KFold拆分成k个折叠,然后将这些拆分成不同的训练/测试拆分,而ShuffleSplit重复地直接进行训练/测试拆分。具体地说,每个样本在KFold中只测试一次,但在ShuffleSplit中可以测试零次或多次。

票数 3
EN
查看全部 2 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63513280

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档