上一篇我们主要介绍的是回归模型,接下来会介绍分类模型。
Logistic 回归
Logistic回归(Logistic Regression),别看它带有“回归”俩字,其实它是做分类用的。
有些地方会把它叫做“逻辑回归”,这是不严谨的。按音译,应该叫做“逻辑斯蒂”回归。
Logistic回归也有一个预测公式,如果它的值大于0,我们把它归为一类;如果值小于0,则把它归为另一类。
由于公式比较复杂,这里我们就不列出了,只要理解它的含义就好。
实战
首先,加载Logistic回归模型
使用自带的乳腺癌数据集,将其分成训练集和测试集
接下来,训练我们的模型
最后,查看我们模型的精度
可以看出,模型的泛化能力非常不做,精确度达到了95.1%、
模型的重要参数
Logistic回归模型默认使用L2正则化,有一个参数C决定了正则化的强度。
C值越小,各个特征的系数w越趋近于0,也就意味着正则化越强,约束性越大。
在实际情况,我们需要不断增大或减小C的值,以使模型的泛化能力得以提升。
模型优点
训练速度和预测速度都非常快,当特征数量远大于样本数量时表现也很好。
模型缺点
当特征数量较少时,可能不如其他模型;使用L2正则化时,有些系数的可解释性可能没有那么强。
朴素贝叶斯
朴素贝叶斯算法也是用来处理分类问题的,一般来说,朴素贝叶斯有三种分类器,分别是GaussianNB、BernoulliNB和MultinomialNB。
GaussianNB分类器通常用来处理连续型数据变量;BernoulliNB所需的输入数据为二分类数据,比如0和1;而MultinomialNB的输入数据是计数数据。
BernoulliNB和MultinomialNB分类器主要用于文本数据的分类。
实战
这里我们用GaussianNB来举例,首先加载该模型:
还是用上面的乳腺癌数据集来训练模型
训练完毕,来看看模型的精度
模型的精度约为90.9%,比用Logistic回归模型的精度要低些。
模型重要参数
BernoulliNB和MultinomialNB分类器有一个参数alpha,该参数可以控制模型的复杂度。alpha越大,模型复杂度越低,泛化能力相应也会增强。
模型的优缺点
朴素贝叶斯模型的训练速度非常快,甚至比一些线性模型还要快。但在如此高的速度下所带来的后果就是模型的泛化能力要比一些线性模型差一些。
领取专属 10元无门槛券
私享最新 技术干货