单类、二元类和多类分类的区别是什么?
如果我喜欢在四个类中对文本进行分类,那么系统也希望系统能够告诉我,这些类中没有一个与未知/未经训练的测试数据匹配。
我就不能用上面提到的所有方法来达到我的目标吗?例如,我可以将C1、C2、C3和C4描述为四种不同的二进制分类训练集,并使用经过训练的模型来标记未知的数据集.
简单地说,C1的培训集包含1类(C1的所有好样本)和0类(混合了所有C2、C3和C4作为C1的坏样本)。
是未标记的数据C1 -> 1或0。
是未标记的数据C2 -> 1或0.等等..。
对于多项式分类,我只需在一个训练集中定义一个训练集,其中包含C1、C2、C3和C4的所有良好样本数据,然后使用一个结果模型进行分类。
但是这两种方法有什么区别呢?(除此之外,我必须使用不同的算法)
我将如何定义一个培训集来解决所描述的使用单类分类来对这四个类中的数据进行分类的问题(这是否可能)?
如果我的想法完全错了,请原谅。如果能给出一个能让方法对我来说更加清晰的答案,我会很感激的。)
发布于 2014-12-03 13:21:34
这些方法的不同之处在于它们对任务所作的假设。多类分类假设每个文档都有一个标签。因此,一份文件既可以是关于体育的,也可以是关于天气的,而不是两者都有。多标号分类允许文档具有任何标签组合,包括无标签。因此,一个文档可以只涉及体育,只涉及天气,体育和天气,或者两者都不能。
您可以使用数据训练多标签分类器,其中每个文档只有一个标签,但不能保证在测试时所做的预测只有一个标签。此外,通过考虑比需要更多可能的标记,您正在强迫分类器做更多的工作(并可能产生更多的错误)。因此,如果多类假设对您的问题有意义,那么您最好使用多类分类器。
您描述的用于培训单个二进制分类器的方法对应于多标签分类。您使用的二进制分类器可以分别从一类数据或两类数据中进行培训。然而,这只是进行多标签分类的众多方法中的一种(更多信息请参见上面的维基百科页面)。
不幸的是,您所描述的问题并不完全适用于多类或多标签分类,因为您希望每个文档最多有一个标签。
发布于 2014-10-29 22:10:53
您的培训数据需要是一组包含所有类别的样本的数据,因为您正在尝试(我认为)创建一个将提供这些数据的模型。
你有没有想过你用的是什么型号(S)?我要问的是,如果每个类中的数据量在训练数据中相当一致,那么纯分类模型就会得到更好的匹配。然而,回归模型需要数据类型比例来匹配预期的输入。
https://datascience.stackexchange.com/questions/2313
复制相似问题