首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何处理机器学习分类问题中的“未知”类别?

如何处理机器学习分类问题中的“未知”类别?
EN

Data Science用户
提问于 2018-09-02 09:08:00
回答 3查看 6.2K关注 0票数 5

教程问题以二进制或多类分类的形式出现,其中所有的数据都有适当的标签。在实际应用程序中,有不属于任何类别且不能分类的传入数据。我们如何处理这些属于“未知”类别的数据?“未知”的宇宙可能远不止“已知”。因此,“未知”的数据可能过多,导致阶级不平衡。我们如何训练模型来处理“未知”数据?还是我们忽视了它?

EN

回答 3

Data Science用户

回答已采纳

发布于 2018-09-03 11:59:46

我认为这是其中一个最令人沮丧的答案-这取决于。

对你的问题:

如何处理这些属于“未知”类别的数据?

有很多种方法可以做到这一点。有些是非常简单的,有些则更复杂,但它们都取决于您是否理解了您的数据,以及究竟是什么原因导致了数据的丢失--例如,数据丢失是随机的还是有特定的原因造成的?

处理缺失值的一些技术(按复杂性的增加顺序排列):

  1. 排除所有缺失的值。如果您有大量的数据和很少丢失的值,这可能是很好的(不是总是这样--您提到的其余数据集可能是不平衡的,从而暗示这一点)。
  2. 用适当的值替换/分组丢失的值--例如,用人口最多的变量/组丢失值的平均值替换缺失的值。
  3. 用模型/方程估算缺失值--例如,由链式方程(小鼠)进行多变量计算。

我们如何训练模型来处理“未知”数据?

这取决于您正在使用的模型或技术。有些技术很好地处理丢失的值(例如xgboost),而另一些则不处理(例如R的随机森林的ranger实现)。在决定如何处理丢失的值时,您应该考虑所使用的模型。

还是我们忽略它?

忽略丢失的值,你将面临危险!

希望这能帮上忙!

票数 4
EN

Data Science用户

发布于 2018-09-02 10:33:35

我建议这些方法:

  1. 做过样或过样
  2. 而不是准确性,考虑AUC或F1-得分。
  3. 定义不同类别预测的成本与实际成本。
  4. 尝试找到一些规则来查找“未知”,然后从培训数据中删除它们。

祝好运。

票数 1
EN

Data Science用户

发布于 2018-09-02 22:24:01

这取决于你使用的是哪种机器学习。有监督的机器学习模型需要有标记的数据来区分不同的类别和检测模式。它们通常更受欢迎,因为当标记的数据非常丰富时,它们往往比它们的无监督的对应方更成功。

另一方面,没有监督的模型根本不需要标签数据。他们只是对数据进行调查并确定相似点,这在某些情况下是有利的,因为在某些情况下,未标注的数据量足够大,足以为模型提供有效学习所需的资源。这方面的例子包括深度信念网络、聚类分析和自动编码器。

半监督模型是两者的结合,可以从标记数据和未标记数据的混合中学习。标记数据为网络提供了一个可验证结论的基础。

希望这能有所帮助。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/37706

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档