谷歌机器学习速成课程系列三

谷歌tensorflow官方推出了免费的机器学习视频课,总计25个课时,支持中英文语言播放、大量练习、实例代码学习,是初学tensorflow不机器学习爱好者必看的良心精品,课程授课的老师都是来自谷歌AI团队不Tensorflow框架的开发团队,可以说是唯一的业界良心免费教程。从本文开始,【OpenCV学堂】将推出一系列的文章介绍课程各个章节内容不代码演示部分,前面相关文章阅读回顾:

谷歌机器学习速成课程系列二

谷歌机器学习速成课程系列一

TensorFlow进行简单的图像处理

Windows下TensorFlow安装与代码测试

第七课 训练集与测试集

主要讲了训练集与测试集方法在机器学习,提到如果我们只有一个数据集我们怎么划分训练集与测试集,一个用于训练,一个用于测试。两个数据集需要各自独立,数据集首先要进行随机化之后再差分。对数据集差分之后特别需要注意的是不能对测试数据集进行任何训练,因为这样会容易导致过拟合。如果测试数据集过小,需要进行交叉验证。数据集差分为训练集与测试集可以按照80/20的原则进行:

确保您的测试集满足以下两个条件:

  • 规模足够大,可产生具有统计意义的结果。
  • 能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同

第八课 验证

通过将数据集划分为训练集和测试集,您可以判断给定模型能否很好地泛化到新数据。我们对训练集进行训练,然后根据测试集的结果,调整参数,最后得到一个比较好的泛化模型,大致流程如下:

不过,当进行多轮超参数调整时,仅使用两类数据可能不太够,这个时候你需要验证集数据。这样我们就需要把数据集再差分出来一个验证集数据,我们首先根据训练集训练数据,然后在验证集验证,得到比较好的结果,然后对模型使用测试集测试,如果在测试集与验证集上面得到的结果比较一致,就说明我们训练的比较好,如果在验证集上效果比较好,而对测试集数据效果不好,就说明我们模型可能对验证集数据过拟合,上述流程就调整如下:

第九课:表示法

我们必须从各种各样的数据源中提取数据,然后根据这些数据创建特征向量。从原始数据中提取特征的过程称为特征工程。实践中机器学习从业人员将大概75%的时间花在特征工程中,特征就是我们要的东西,下面我们一起了解一下特征工程是如何发生的。分别以数值类型、字符串类型等如何转换为特征向量,介绍了字符串转码的独热编码方法,另外介绍了特征数据必须具备的条件

  • 特征必须具有非零值,在数据集中出现次数是多次,如果只出现1次或者几次就不是一个好的特征
  • 特征必须具有清晰明确的表达意义,
  • 特征值不应该随时间发生变化
  • 特征不应该采用不理性的离群值

可以通过分箱技术获数据映射,使用独热编码生成特征数据,从而将非线性关系映射到模型中。直接将数据仍到程序开始训练是不负责任的做法,需要通过散点图,盒线图、去除离群值,清洗数据等方法,获取比较好的数据

原文发布于微信公众号 - OpenCV学堂(CVSCHOOL)

原文发表时间:2018-05-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

微软资深研究员详解基于交错组卷积的高效DNN | 公开课笔记

1381
来自专栏IT派

干货 | 8个方法解决90%的NLP问题

每一个机器学习问题都始于数据,比如一组邮件、帖子或是推文。文本信息的常见来源包括:

1033
来自专栏量子位

深度学习在推荐系统上的应用

作者:陈仲铭 量子位 已获授权编辑发布 转载请联系原作者 深度学习最近大红大紫,深度学习的爆发使得人工智能进一步发展,阿里、腾讯、百度先后建立了自己的AI La...

3855
来自专栏CVer

[计算机论文速递] 2018-03-23

通知:这篇文章有15篇论文速递信息,涉及目标检测、目标跟踪、姿态估计、SLAM、GAN、行为识别、去雾、网络优化等方向 创办CVer公众号,渐渐半个多月了,很感...

40117
来自专栏机器之心

你的英语不行!微软亚研自动语法纠错系统达到人类水平

用于语法纠错(GEC)的序列到序列(seq2seq)模型(Cho et al., 2014; Sutskever et al., 2014)近年来吸引了越来越多...

1201
来自专栏量子位

看图猜口袋妖怪属性,这个神经网络可能比你强!(教程)

△ Who’s that Pokémon王新民 编译自 博客Journal of Geek Studies 量子位·QbitAI 出品 还记得去年异常火爆,然而...

3746
来自专栏机器之心

从大间隔分类器到核函数:全面理解支持向量机

28610
来自专栏专知

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值...

2954
来自专栏数据派THU

独家 | 如何利用大规模无监督数据建立高水平特征?

本文带你一窥Twitter整个产品链的构成,了解数据科学是怎样在各类型公司中发挥作用的。

1163
来自专栏AI研习社

深度学习在推荐系统上的应用

深度学习最近大红大紫,深度学习的爆发使得人工智能进一步发展,阿里、腾讯、百度先后建立了自己的AI Labs,就连传统的厂商OPPO、VIVO都在今年开始筹备建立...

6239

扫码关注云+社区