首页
学习
活动
专区
工具
TVP
发布

8,模型的训练

根据问题特点选择适当的估计器estimater模型:

分类(SVC,KNN,LR,NaiveBayes,...)

回归(Lasso,ElasticNet,SVR,...)

聚类(KMeans,...)

降维(PCA,...)

一,分类模型的训练

二,回归模型的训练

三,聚类模型的训练

KMeans算法的基本思想如下:

随机选择K个点作为初始质心

While 簇发生变化或小于最大迭代次数:

四,降维模型的训练

PCA主成分分析(Principal Components Analysis)是最常使用的降维算法,其基本思想如下:将原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,从而保留样本尽可能多的信息,并且m个特征互不相关。

用几何观点来看,PCA主成分分析方法可以看成通过正交变换,对坐标系进行旋转和平移,并保留样本点投影坐标方差最大的前几个新的坐标。

通过PCA主成分分析,可以帮助去除样本中的噪声信息,便于进一步做分类或回归分析。

五,管道Pipeline的训练

使用管道可以减少训练步骤

有时候,我们可以用管道Pipeline把多个估计器estimater串联起来一次性训练数据。

管道的原理是把上一级估计器的输出作为下一级估计器的输入,相当于一条数据流水线。

例如下面常用的管道有3级,第一级进行数据预处理,第二级完成数据降维,第三级实现分类、回归或聚类功能。

管道中除最后一个之外的所有estimators都必须是变换器(transformers),最后一个estimator可以是任意类型(transformer,classifier,regresser)

管道本身可以看成一个超级estimater,可用GridSearchCV等方式进行超参数优化。

六,使用特征联合FeatureUnion

Pipeline是estimater的串联,而FeatureUnion则是estimater的并联。但是FeatureUnion并联的只能transformer转换器.

FeatureUnion 合并了多个转换器对象形成一个新的转换器,该转换器合并了他们的输出。输出的样本向量被横向连接成更长的向量。

可以结合FeatureUnion 和 Pipeline 来创造出更加复杂的模型。

Python与算法之美

(Python_Ai_Road)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180802G1YV7800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券