我有一个关于处理多标签分类问题的方法的问题。
在文献综述的基础上,我发现最常用的方法之一是问题转换方法.它将多标号问题转化为多个单标号问题,分类结果只是每个单标签分类器的简单结合,采用二进制相关的方法。
由于单个标签问题可以被描述为二进制分类(如果有两个标签)或多类分类问题(如果有多个标签,即labels>2),目前的转换方法似乎都将多标签问题转化为多个二进制问题。但这将导致数据不平衡的问题,因为负类可能比正类有更多的文档。
因此,我的问题,为什么不转化为多类问题,然后应用直接多类分类算法,以避免数据不平衡问题。在这种情况下,对于一个测试文档,每个经过训练的单标签多类分类器将预测是否分配标签,而所有这些单标签多类分类器预测结果的合并将是该测试文档的最后一组标签。
总之,将多标签分类问题转化为多个二进制分类问题,将多标签分类问题转化为多类分类问题,可以避免数据不平衡问题。除此之外,对于上述两种方法,所有内容都保持不变:您需要在分类问题中构造不同标签的总数)单标签(二进制或多类)分类器,您需要准备训练数据集和测试数据,您需要测试测试文档上的每个单个标签分类器,每个单标签分类器的预测结果的合并是测试文档的最终标签集。
希望有人能帮助澄清我的困惑,非常感谢!
发布于 2017-01-30 14:45:13
您描述的是一种已知的对多类问题的转换策略,称为标签功率集转换策略。
这种方法的缺点:
指的是:切尔曼、埃弗顿·阿尔瓦雷斯、玛丽亚·卡罗莱纳·莫纳德和让·梅茨。“多标签问题转换方法:一个案例研究”克莱伊电子杂志14.1 (2011年):4-4.
https://stackoverflow.com/questions/35737352
复制相似问题