前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >3,sklearn的一般流程

3,sklearn的一般流程

作者头像
lyhue1991
发布2020-07-20 11:30:18
6640
发布2020-07-20 11:30:18
举报
文章被收录于专栏:Python与算法之美

安装并检查sklearn的版本

sklearn机器学习的一般流程包括:

  • 数据的获取
  • 特征的提取
  • 特征的选择
  • 数据预处理
  • 模型的训练
  • 模型的评估
  • 模型的优化
  • 模型持久化

一,数据的获取

可以导入内部数据集,计算机生成的数据集,网络上的数据集,文件中的数据集等。

二,数据预处理

预处理数据包括:数据的标准化,数据的归一化,数据的二值化,非线性转换,数据特征编码,处理缺失值等。

三,模型的训练

根据问题特点选择适当的估计器estimater模型: 分类(SVC,KNN,LR,NaiveBayes,...) 回归(Lasso,ElasticNet,SVR,...) 聚类(KMeans,...) 降维(PCA,...)

我们当前的问题是根据特征预测鸢尾花的类型,属于带标签的分类问题,并且samples个数为150个小于100K,所以根据sklearn使用地图我们选择Linear SVC模型进行分类。

四,模型的评估

模型的评估和模型的优化相关功能在sklearn.model_selection中。

除了使用estimator的score函数简单粗略地评估模型的质量之外,在sklearn.metrics模块针对不同的问题类型提供了各种评估指标并且可以创建用户自定义的评估指标。

可以采用交叉验证方法评估模型的泛化能力,能够有效避免过度拟合。10折交叉验证示意图。

五,模型的优化

优化模型的方法包括 网格搜索法,随机搜索法,模型特定交叉验证,信息准则优化等。

网格搜索法在指定的超参数空间中对每一种可能的情况进行交叉验证评分并选出最好的超参数组合。

六,模型持久化

可以使用python内置的pickle模块或将训练好模型保存到磁盘或字符串,以便将来直接使用,而不需要重复训练。对于sklearn,使用joblib会更加有效,但是只能保存到磁盘而不能保存成字符串。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法美食屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一,数据的获取
  • 三,模型的训练
  • 四,模型的评估
  • 五,模型的优化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档