假设你试图用机器学习来完成分类任务,比如说,看动物的照片,把马和斑马区分开来。这项任务似乎处于最先进的水平。
但是如果你把一堆贴着标签的照片扔到像神经网络或支持向量机这样的东西上,那么实际上斑马比马稀有得多,以至于系统最终学会了说‘永远是一匹马’,因为这实际上是最小化错误的方法。
这可能是最小的错误,但它也不是一个非常有用的结果。什么是建议的方式告诉系统‘我想最好的猜测哪些照片是斑马,即使这确实制造了一些假阳性’?关于这个问题似乎没有太多的讨论。
发布于 2017-09-07 17:06:35
发布于 2017-09-10 21:25:01
对于这类不平衡的数据问题,学习与每个类相关的模式是一种很好的方法,而不是简单地比较类--这可以首先通过无监督学习(例如使用自动编码器)来完成。这是一篇很好的文章,可以在https://www.r-bloggers.com/autoencoders-and-anomaly-detection-with-machine-learning-in-fraud-analytics/amp/上找到。另一项建议--在运行分类器之后,可以使用混淆矩阵来确定应在何处寻找额外的数据(例如,许多斑马错误)。
https://stackoverflow.com/questions/46101299
复制相似问题