我正在学习如何在包createDataPartition()
中使用caret
函数,并且不理解参数的作用。
据我所知,函数返回的列表是抽样行,而不是值。在这种情况下,为什么要费心选择y
呢?
发布于 2022-07-30 13:49:06
如果您转到caret
主帮助页的caret
部分,您将看到以下内容:
函数createDataPartition可用于创建数据的平衡拆分。如果该函数的y参数是一个因子,则随机抽样发生在每个类中,并应保留数据的总体类分布。
选择y
的理由是能够更容易地在结果中保留总体的类分布。正如讨论过的这里一样,培训数据中的不平衡类可能存在许多问题。
https://stackoverflow.com/questions/73175921
复制相似问题