我目前正在研究一个多标签分类问题。我正在使用scikit多重学习库(进一步阅读这里)
我知道培训/测试拆分对于这些类型的问题非常重要--确保标签组合在这两种情况下都有很好的表现(scikit-multilearn实现了自己的拆分方法)。
我目前的目标是了解它是如何工作的,这样我就可以正确地评估它--我主要是从这里阅读。
我对get_combination_wise_output_matrix
方法的输出感到有点困惑。我明白,在一个高水平,它是给我的计数标签组合的计数,无论我指定的任何订单。
下面是我观察到的一个输出示例:
我要问的第一个问题是,除了索引5处的标签出现一次以外,(5, 5): 1,
是否意味着其他任何东西,并且这个数字被重复用于.原因?
此外,我还没有找到任何文献来评估如何/何时使用不同的顺序(我目前的方法是定性地评估一些不同的选项,考虑到我正在努力(拼命)解决的具体问题,这些选项似乎是合理的)。
提前感谢您的帮助!
发布于 2020-05-23 20:15:23
所以,order
是指你想要比较的标签的可能组合数(例如,根据每个标签出现的频率,order=2
是两个标签的组合出现的频率,比如值5,5,意思是“只在索引5中有标签的行,而没有其他标签),在这个情况下,最大的顺序应该是标签的数量--> 23。如果设置了order=23
,如果一行只有一个标签在索引位置4,我们的结果之一就是一个向量,重复了23次。”
我觉得奇怪的是,我希望看到“索引4中只有一个标签”表示为[0, 0, 0, 0, 1, 0, ,,, 0, 0]
(== len 24),而不是[4, 4, 4, ... 4, 4]
(== len 24)。
很奇怪的陈述。有点像稀疏矩阵符号。
https://datascience.stackexchange.com/questions/52697
复制相似问题