教程问题以二进制或多类分类的形式出现,其中所有的数据都有适当的标签。在实际应用程序中,有不属于任何类别且不能分类的传入数据。我们如何处理这些属于“未知”类别的数据?“未知”的宇宙可能远不止“已知”。因此,“未知”的数据可能过多,导致阶级不平衡。我们如何训练模型来处理“未知”数据?还是我们忽视了它?
发布于 2018-09-03 11:59:46
我认为这是其中一个最令人沮丧的答案-这取决于。
对你的问题:
有很多种方法可以做到这一点。有些是非常简单的,有些则更复杂,但它们都取决于您是否理解了您的数据,以及究竟是什么原因导致了数据的丢失--例如,数据丢失是随机的还是有特定的原因造成的?
处理缺失值的一些技术(按复杂性的增加顺序排列):
这取决于您正在使用的模型或技术。有些技术很好地处理丢失的值(例如xgboost
),而另一些则不处理(例如R的随机森林的ranger
实现)。在决定如何处理丢失的值时,您应该考虑所使用的模型。
忽略丢失的值,你将面临危险!
希望这能帮上忙!
发布于 2018-09-02 10:33:35
我建议这些方法:
祝好运。
发布于 2018-09-02 22:24:01
这取决于你使用的是哪种机器学习。有监督的机器学习模型需要有标记的数据来区分不同的类别和检测模式。它们通常更受欢迎,因为当标记的数据非常丰富时,它们往往比它们的无监督的对应方更成功。
另一方面,没有监督的模型根本不需要标签数据。他们只是对数据进行调查并确定相似点,这在某些情况下是有利的,因为在某些情况下,未标注的数据量足够大,足以为模型提供有效学习所需的资源。这方面的例子包括深度信念网络、聚类分析和自动编码器。
半监督模型是两者的结合,可以从标记数据和未标记数据的混合中学习。标记数据为网络提供了一个可验证结论的基础。
希望这能有所帮助。
https://datascience.stackexchange.com/questions/37706
复制相似问题