我有一个数据源,其中包含一个用逗号分隔的值为的列。我正在尝试使用这些列对行进行分组。但是,默认情况下不对值进行分类。Line 6 - AA, B, C - Line 1 and Line 2B, C - line 4 and line 5
我想过将CSV划分为多个列,对它们进行分类,最后将它们重新合并为CSV,但我不确定如何继续。
有时,当将带有分类列的数据帧拆分为测试和训练集时,训练集将不会包含所有级别的分类变量。然后,当您训练模型并尝试预测测试集时,预测将失败:x <- data.frame(...) # data frame with columns with very dispersed categorical有没有人知道一种方便的方法,可以将训练和测试中的所有分类变量的级别设置为原始数据集中的级别?
谢谢。