开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >8，模型的训练

8，模型的训练

作者头像

lyhue1991

发布于 2020-07-17 17:36:19

6310

发布于 2020-07-17 17:36:19

举报

文章被收录于专栏：Python与算法之美Python与算法之美

根据问题特点选择适当的估计器estimater模型：

分类(SVC,KNN,LR,NaiveBayes,...)

回归(Lasso,ElasticNet,SVR,...)

聚类(KMeans,...)

降维(PCA,...)

一，分类模型的训练

二，回归模型的训练

三，聚类模型的训练

KMeans算法的基本思想如下：

随机选择K个点作为初始质心 While 簇发生变化或小于最大迭代次数：

将每个点指派到最近的质心，形成K个簇  
重新计算每个簇的质心

四，降维模型的训练

PCA主成分分析(Principal Components Analysis)是最常使用的降维算法，其基本思想如下：将原先的n个特征用数目更少的m个特征取代，新特征是旧特征的线性组合，这些线性组合最大化样本方差，从而保留样本尽可能多的信息，并且m个特征互不相关。

用几何观点来看，PCA主成分分析方法可以看成通过正交变换，对坐标系进行旋转和平移，并保留样本点投影坐标方差最大的前几个新的坐标。

通过PCA主成分分析，可以帮助去除样本中的噪声信息，便于进一步做分类或回归分析。

五，管道Pipeline的训练

使用管道可以减少训练步骤

有时候，我们可以用管道Pipeline把多个估计器estimater串联起来一次性训练数据。

管道的原理是把上一级估计器的输出作为下一级估计器的输入,相当于一条数据流水线。

例如下面常用的管道有3级，第一级进行数据预处理，第二级完成数据降维，第三级实现分类、回归或聚类功能。

管道中除最后一个之外的所有estimators都必须是变换器（transformers），最后一个estimator可以是任意类型（transformer，classifier，regresser）

管道本身可以看成一个超级estimater,可用GridSearchCV等方式进行超参数优化。

六，使用特征联合FeatureUnion

Pipeline是estimater的串联，而FeatureUnion则是estimater的并联。但是FeatureUnion并联的只能transformer转换器.

FeatureUnion 合并了多个转换器对象形成一个新的转换器，该转换器合并了他们的输出。输出的样本向量被横向连接成更长的向量。

可以结合FeatureUnion 和 Pipeline 来创造出更加复杂的模型。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2018-08-02，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自算法美食屋微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

四，降维模型的训练