我有一个超过57,000行和129列的数据帧(myData),我的响应变量是一个3级的因子。我的意图是将response变量中的一个即时类的大小减少80%,但是当我使用此代码时,它从myData数据帧创建了一个子集"reduced“,而不是删除行。我如何从主数据帧中减去这个子集,或者是否有其他方法可以做到这一点?reduced <- myData %>% fi
数据集包含许多分类变量,其中有些级别太多(+100)。我的问题是:是否有任何建议来了解一个变量的“适当”数量?它是否基于其他变量级别的数量?(例如,大多数变量有10到30个级别,一个或两个变量有80100个级别)。对于包含太多级别的变量,我想取最频繁级别的80%,并将20%放到一个新的“其他级别”中,但我不知道应该在哪个级别停止(例如: var 1: 70