8，模型的训练

文章来源：企鹅号 - Python与算法之美

根据问题特点选择适当的估计器estimater模型：

分类(SVC,KNN,LR,NaiveBayes,...)

回归(Lasso,ElasticNet,SVR,...)

聚类(KMeans,...)

降维(PCA,...)

一，分类模型的训练

二，回归模型的训练

三，聚类模型的训练

KMeans算法的基本思想如下：

随机选择K个点作为初始质心

While 簇发生变化或小于最大迭代次数：

四，降维模型的训练

PCA主成分分析(Principal Components Analysis)是最常使用的降维算法，其基本思想如下：将原先的n个特征用数目更少的m个特征取代，新特征是旧特征的线性组合，这些线性组合最大化样本方差，从而保留样本尽可能多的信息，并且m个特征互不相关。

用几何观点来看，PCA主成分分析方法可以看成通过正交变换，对坐标系进行旋转和平移，并保留样本点投影坐标方差最大的前几个新的坐标。

通过PCA主成分分析，可以帮助去除样本中的噪声信息，便于进一步做分类或回归分析。

五，管道Pipeline的训练

使用管道可以减少训练步骤

有时候，我们可以用管道Pipeline把多个估计器estimater串联起来一次性训练数据。

管道的原理是把上一级估计器的输出作为下一级估计器的输入,相当于一条数据流水线。

例如下面常用的管道有3级，第一级进行数据预处理，第二级完成数据降维，第三级实现分类、回归或聚类功能。

管道中除最后一个之外的所有estimators都必须是变换器（transformers），最后一个estimator可以是任意类型（transformer，classifier，regresser）

管道本身可以看成一个超级estimater,可用GridSearchCV等方式进行超参数优化。

六，使用特征联合FeatureUnion

Pipeline是estimater的串联，而FeatureUnion则是estimater的并联。但是FeatureUnion并联的只能transformer转换器.

FeatureUnion 合并了多个转换器对象形成一个新的转换器，该转换器合并了他们的输出。输出的样本向量被横向连接成更长的向量。

可以结合FeatureUnion 和 Pipeline 来创造出更加复杂的模型。

Python与算法之美

(Python_Ai_Road)

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货