我想选择一个无监督的算法来学习从数据中预测$n$输出,例如。图像中的4个坐标(像素)。我应该选择哪种算法?我认为将图像中的点的集合划分为输出(1)或不属于(0)是一种2类分类,可能是logistic回归,给出一个点作为输出点的概率。但我很困惑,因为分类算法是有监督的算法的一部分,我们有标签的数据。我是否应该使用聚类来找到两组可以输出的点?也许是异常检测来找出四个奇点?
发布于 2018-05-25 15:57:05
发布于 2018-05-25 11:26:35
由于您没有任何可用的标记数据,执行监督学习算法或至少半监督学习算法是不容易的。如果您可以使用一个小的标记数据集,后者可能非常有用。
一种解决方案是首先执行一种聚类算法,将目标特征排除在外,例如k-均值为k=2,然后考虑到聚类伪标签来训练模型。但是,您仍然无法识别这两个集群中的哪个是类"1“,或者哪个是类"2”。
您可以有一个合理的解决方案,只包含几个标记的数据,否则您可以只执行一些聚类分析。
https://datascience.stackexchange.com/questions/32155
复制相似问题