AiTechYun
编辑:xiaoshan
任何类型的机器学习(ML)问题,都有许多不同的算法可供选择。在机器学习中,有一种叫做“无免费午餐(No Free Lunch)”的定理,意思是没有任何一种ML算法对所有问题都是最适合的。不同ML算法的性能在很大程度上取决于数据的大小和结构。因此,除非我们直接通过简单的试验和错误来测试我们的算法,否则我们往往不清楚是否正确选择了算法。
但是,我们需要了解每个ML算法的优点和缺点。尽管一种算法并不总是优于另一种算法,但是我们可以通过了解每种算法的一些特征来快速选择正确的算法并调整超参数。我们将研究一些关于回归问题的比较重要的机器学习算法,并根据它们的优缺点来决定使用它们的准则。
线性回归
简单来说,单变量线性回归是一种利用线性模型(如一条线)对单个输入自变量(特征变量)和输出因变量之间的关系进行建模的技术。比较一般的情况是多变量线性回归,为多个独立输入变量(特征变量)和一个输出因变量之间的关系创建模型。模型保持线性,因为输出是输入变量的线性组合。
第三个最常见的例子叫做多项式回归模型,该模型现在变成了特征变量(如指数变量,正弦和余弦等)的非线性组合。但这需要知道数据与输出的关系。回归模型可以使用随机梯度下降(SGD)进行训练。
优点:
缺点:
神经网络
神经网络由一组相互连接的节点(称为神经元)组成。来自数据的输入特征变量作为多变量线性组合被传递给这些神经元,其中乘以每个特征变量的值被称为权重。然后将非线性应用于该线性组合,使神经网络能够建模复杂的非线性关系。神经网络可以有多层,其中一层的输出以相同的方式传递给下一层。在输出端,通常不会施加非线性。神经网络使用随机梯度下降(SGD)和反向传播算法(均显示在上面的GIF中)进行训练。
优点:
缺点:
随机森林
从基本情况开始,决策树是一种直观的模型,该模型通过遍历树的分支与节点的决策选择下一个分支下降。树归纳法是将一组训练实例作为输入,确定哪些属性最适合分割,分割数据集,并在产生的分割数据集上重复出现,直到所有训练实例被分类。在构建树时,目标是在可能创建的最纯粹的子节点属性上进行分割,为了对数据集中的所有实例进行分类,需要对其进行最少的分割。纯度是通过信息增益的概念来衡量的,这涉及到需要对一个未被发现的实例进行多少了解,才能使其正确分类。在实践中,这通过比较熵或者是将当前数据集分区的单个实例进行分类所需的信息量,如果当前的数据集分区要在给定的属性上进一步划分,则需要对单个实例进行分类。
随机森林只是决策树的集合。输入向量通过多个决策树运行。对于回归,所有树的输出值是平均的;对于分类,使用投票方案来确定最终的类别。
优点:
缺点:
本文为atyun出品,转载请注明出处。更多内容关注微信公众号atyun_com;访问网站www.atyun.com;或加资源群:213252181