前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌机器学习速成课程系列三

谷歌机器学习速成课程系列三

作者头像
OpenCV学堂
发布2018-07-25 17:15:32
4500
发布2018-07-25 17:15:32
举报
文章被收录于专栏:贾志刚-OpenCV学堂

谷歌tensorflow官方推出了免费的机器学习视频课,总计25个课时,支持中英文语言播放、大量练习、实例代码学习,是初学tensorflow不机器学习爱好者必看的良心精品,课程授课的老师都是来自谷歌AI团队不Tensorflow框架的开发团队,可以说是唯一的业界良心免费教程。从本文开始,【OpenCV学堂】将推出一系列的文章介绍课程各个章节内容不代码演示部分,前面相关文章阅读回顾:

谷歌机器学习速成课程系列二

谷歌机器学习速成课程系列一

TensorFlow进行简单的图像处理

Windows下TensorFlow安装与代码测试

第七课 训练集与测试集

主要讲了训练集与测试集方法在机器学习,提到如果我们只有一个数据集我们怎么划分训练集与测试集,一个用于训练,一个用于测试。两个数据集需要各自独立,数据集首先要进行随机化之后再差分。对数据集差分之后特别需要注意的是不能对测试数据集进行任何训练,因为这样会容易导致过拟合。如果测试数据集过小,需要进行交叉验证。数据集差分为训练集与测试集可以按照80/20的原则进行:

确保您的测试集满足以下两个条件:

  • 规模足够大,可产生具有统计意义的结果。
  • 能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同

第八课 验证

通过将数据集划分为训练集和测试集,您可以判断给定模型能否很好地泛化到新数据。我们对训练集进行训练,然后根据测试集的结果,调整参数,最后得到一个比较好的泛化模型,大致流程如下:

不过,当进行多轮超参数调整时,仅使用两类数据可能不太够,这个时候你需要验证集数据。这样我们就需要把数据集再差分出来一个验证集数据,我们首先根据训练集训练数据,然后在验证集验证,得到比较好的结果,然后对模型使用测试集测试,如果在测试集与验证集上面得到的结果比较一致,就说明我们训练的比较好,如果在验证集上效果比较好,而对测试集数据效果不好,就说明我们模型可能对验证集数据过拟合,上述流程就调整如下:

第九课:表示法

我们必须从各种各样的数据源中提取数据,然后根据这些数据创建特征向量。从原始数据中提取特征的过程称为特征工程。实践中机器学习从业人员将大概75%的时间花在特征工程中,特征就是我们要的东西,下面我们一起了解一下特征工程是如何发生的。分别以数值类型、字符串类型等如何转换为特征向量,介绍了字符串转码的独热编码方法,另外介绍了特征数据必须具备的条件

  • 特征必须具有非零值,在数据集中出现次数是多次,如果只出现1次或者几次就不是一个好的特征
  • 特征必须具有清晰明确的表达意义,
  • 特征值不应该随时间发生变化
  • 特征不应该采用不理性的离群值

可以通过分箱技术获数据映射,使用独热编码生成特征数据,从而将非线性关系映射到模型中。直接将数据仍到程序开始训练是不负责任的做法,需要通过散点图,盒线图、去除离群值,清洗数据等方法,获取比较好的数据

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-05-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第七课 训练集与测试集
  • 第八课 验证
  • 第九课:表示法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档