首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在研究多标签分类问题时理解`get_combination_wise_output_matrix`

在研究多标签分类问题时理解`get_combination_wise_output_matrix`
EN

Data Science用户
提问于 2019-05-27 08:49:11
回答 1查看 451关注 0票数 2

我目前正在研究一个多标签分类问题。我正在使用scikit多重学习库(进一步阅读这里)

我知道培训/测试拆分对于这些类型的问题非常重要--确保标签组合在这两种情况下都有很好的表现(scikit-multilearn实现了自己的拆分方法)。

我目前的目标是了解它是如何工作的,这样我就可以正确地评估它--我主要是从这里阅读。

我对get_combination_wise_output_matrix方法的输出感到有点困惑。我明白,在一个高水平,它是给我的计数标签组合的计数,无论我指定的任何订单。

下面是我观察到的一个输出示例:

我要问的第一个问题是,除了索引5处的标签出现一次以外,(5, 5): 1,是否意味着其他任何东西,并且这个数字被重复用于.原因?

此外,我还没有找到任何文献来评估如何/何时使用不同的顺序(我目前的方法是定性地评估一些不同的选项,考虑到我正在努力(拼命)解决的具体问题,这些选项似乎是合理的)。

提前感谢您的帮助!

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-05-23 20:15:23

所以,order是指你想要比较的标签的可能组合数(例如,根据每个标签出现的频率,order=2是两个标签的组合出现的频率,比如值5,5,意思是“只在索引5中有标签的行,而没有其他标签),在这个情况下,最大的顺序应该是标签的数量--> 23。如果设置了order=23,如果一行只有一个标签在索引位置4,我们的结果之一就是一个向量,重复了23次。”

我觉得奇怪的是,我希望看到“索引4中只有一个标签”表示为[0, 0, 0, 0, 1, 0, ,,, 0, 0] (== len 24),而不是[4, 4, 4, ... 4, 4] (== len 24)。

很奇怪的陈述。有点像稀疏矩阵符号。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/52697

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档