5 Postmodel Workflow

This chapter will cover the following recipes:这章将包含以下部分:

1、K-fold cross validation K-fold 交叉验证

2、Automatic cross validation 自动交叉验证

3、Cross validation with ShuffleSplit 使用ShuffleSplit交叉检验

4、Stratified k-fold 分层K-fold

5、Poor man's grid search 穷举网格搜索

6、Brute force grid search 暴力网格搜索

7、Using dummy estimators to compare results 使用虚拟估计值与结果比较

8、Regression model evaluation 回归模型评估

9、Feature selection 特征选择

10、Feature selection on L1 norms 基于L1正则化的特征选择

11、Persisting models with joblib joblib持久模型

Introduction简介

Even though by design the chapters are unordered, you could argue by virtue of the art of data science, we've saved the best for last.

尽管章节的设计是无序的,你可能会争论数据科学的艺术的美德,我们把最好的放在了最后。

For the most part, each recipe within this chapter is applicable to the various models we've worked with. In some ways, you can think about this chapter as tuning the parameters and features. Ultimately, we need to choose some criteria to determine the "best" model. We'll use various measures to define best. This is covered in the Regression model evaluation recipe.

在大多数的部分,这一章的每一步都可以被应用于我们工作中的各种模型,在一些方法中,你可以想象这章来调整参数和特征。最终,我们需要选择一些条件来确定最好的模型,我们将要使用各种手段来定义最好,这将涵盖回归模型的评估章节。

Then in the Cross validation with ShuffleSplit recipe, we will randomize the evaluation across subsets of the data to help avoid overfitting.

然后在ShuffleSplit交叉检验的部分,我们将对数据分组进行随机选择交叉验证来帮助避免过拟合。

原文链接:http://www.packtpub.com

原文作者:Trent Hauck

相关文章

  • Scaling data to the standard normal缩放数据到标准正态形式

    A preprocessing step that is almost recommended is to scale columns to the stand...

    到不了的都叫做远方
  • Feature selection特征选择

    This recipe along with the two following it will be centered around automatic fe...

    到不了的都叫做远方
  • Evaluating the linear regression model评估线性回归模型

    In this recipe, we'll look at how well our regression fits the underlying data. ...

    到不了的都叫做远方
  • 基于模糊逻辑的Web语境语言结构集成,丰富概念视觉表征(multimedia)

    由于用语义描述符自动映射视觉特征的困难,最先进的框架在索引视觉内容的覆盖率和有效性方面表现出了较差的性能。这促使我们研究如何利用Web作为一个大型信息源来提取相...

    用户6869393
  • ROS2机器人应用简明教程4工区

    工区/工作区/工作空间(workspace简写为ws)是机器人操作系统核心概念之一。

    zhangrelay
  • 如何阅读JVM 源码

    JDK中JVM(安装在本地C:\Program Files\Java\jdk1.8.0_121\jre\bin\server下jvm.dll)本身并不开源,只能...

    王小明_HIT
  • 并行处理器调度:采用基于感知推理的多目标语言优化求解方法(CS AI)

    在工业4.0时代,几乎所有的工业和制造企业都把重心放在了将人的因素最小化,自动化过程最大化智商。这些企业包含许多处理系统,这些处理系统可以使用最少数量的人并行地...

    奥斯特洛夫斯萌
  • Codeforces 706B Interesting drink

    B. Interesting drink time limit per test:2 seconds memory limit per test:256 meg...

    Angel_Kitty
  • 推和拖:水果收获机器人的主动障碍物分离方法(CS RO)

    选择性地采摘被障碍物包围的目标水果是水果收获机器人的主要挑战之一。与传统的避障方法不同,本文提出了一种结合了推和拖动作的主动式障碍物分离策略。分离运动和轨迹是基...

    时代在召唤
  • SAP Fiori里两种弹出对话框(popup dialog)设计

    This blogs introduces the tips how to find the location of source code where the...

    Jerry Wang

扫码关注云+社区

领取腾讯云代金券