机器学习可以说是一门多领域交叉的学科,关系到概率论、统计学、凸分析、逼近论、计算复杂性理论等多门学科。可以这么描述,机器学习理论主要是设计和分析一些让计算机可以自动“学习”的方法。通俗来说,机器学习是让计算机从数据中挖掘出有价值的信息。
从不同的角度来看待机器学习,可以有不同的理解。下面简要介绍几种主要的分类方法。
根据训练数据是否有标签,机器学习可以分为监督学习、半监督学习和无监督学习。
监督学习:指的是训练数据中每个样本都有标签,通过标签可以指导模型进行学习,学到具有判别性的特征,因此可以对未知样本进行预测。比如图像分类比赛ImageNet,通过利用每张图像已有的标签来训练模型,使得模型可以对未知的图像进行预测,最终得到相应的分类结果。
无监督学习:指的是训练数据完全没有标签,而是通过算法从已有的数据中发现一些“规律”,即数据之间的约束关系,也许是数据之间的关联、距离关系等等。聚类是无监督学习算法中的一种,通过计算样本间的“距离”来将相近的样本聚集到一起,这里的“距离”可以是广义上的距离。
半监督学习:这是介于监督学习和无监督学习之间的一种机器学习的形式。它的训练数据是包含有标签数据,也包含无标签数据。事实上,有标签数据和无标签数据都是从同一分布中采样得来,那无标签数据中含有一些数据分布相关的信息,算是对有标签数据的一种补充。实际场景中,往往会因为有大量的数据,这些数据可能带有标签,但更多是没有标签的,人工标记的代价巨大,无监督学习则提供了一种解决思路。
从算法输出的形式上,机器学习可以分为分类问题和回归问题,而这两类问题都是属于监督学习的范畴。
回归问题:算法模型输出的是连续值。
分类问题:算法模型输出的是离散值。实际的处理过程中,人们也是通过解决回归问题的方法来解决分类问题。
码字不易,欢迎关注AINotesClub。
领取专属 10元无门槛券
私享最新 技术干货