一般情况下,机器学习分为有监督学习和无监督学习。
监督学习是指数据集的正确输出(right output)已知的情况下一类学习算法。因为输入和输出已知,意味着输入和输出之间有一个关系,监督学习算法就是要发现和总结这种“关系”。
有监督学习问题分为回归和分类问题。
例子1:
根据房地产市场数据的房子尺寸大小,尝试预测房价。价格与房子尺寸大小的函数是连续的输出,所以这个问题是回归问题。
我们变化一下,若是我们输出是关于房子的最终卖出价格是高于还是低于询问价的均值,此时这个问题就是分类问题。
例子2:
思考环节:
举例说明回归问题和分类问题?
无监督学习是指对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。
我们基于数据中的变量之间关系利用聚类算法发现这种内在模式或者结构。
例子1: 谷歌新闻主题分组。
例子2: 市场客群划分。
思考环节:
举例说明聚类算法的应用场景?