我有一个机器因某些组件故障而获得的罚单数据集。票证是文本形式的。
对于每个故障,我们大约有8-10个诊断标签。这说明了问题可能是什么,并被用来修复票证。
现在,在训练数据中,我有一个标签和一个诊断标签。所以这是一个多类训练数据。
在训练了一个多类ML模型之后,给出了一个新的文本问题,我可以根据概率的排名为该可能的票据建议前5个诊断吗?
我担心的是,这对于多标签数据是有意义的,其中训练数据也有多个标签,并且您可以将sigmoid激活放在最后,以获得每个诊断的适当探测。
但是,如果训练数据是多类的(即一张票只有一个对应的标签),我仍然可以建议多个诊断标签作为等级顺序吗?
谢谢
发布于 2019-10-12 07:18:04
当然!这与从美国有线电视新闻网在ILSVRC-2012 (又称ImageNet)上训练的CNN返回典型的前5名没有什么不同。你的模型将按照正确的可能性来建议诊断。
然而,请注意,这些前五个标签可能不能反映您的真实标签集合:它们是前五个个人猜测,而您的经验性票据有一组相关的标签。
如果让相关的潜在原因一起出现在前5个评估中很重要,那么您需要在训练数据中包括多个标签。
例如,考虑数据库中的一些票证:
Problem Labels Actual Cause (training label)
1 A B C D A
2 B C B
3 B C E E
4 A B C C现在,考虑一个输入到您的训练模型的输入,其特征类似于问题1和4。我想您的模型将返回前两个原因A和C。尽管B与C密切相关,但如果它没有出现在您的“前5名”列表中,这有什么关系吗
如果你希望这些“原因集群”反映在前5名的列表中,那么你需要在训练中包括多个标签。如果您的目的是仅建议票证历史的经验结果,那么仅针对实际诊断进行培训会更好。
https://stackoverflow.com/questions/58349396
复制相似问题