谷歌tensorflow官方推出了免费的机器学习视频课,总计25个课时,支持中英文语言播放、大量练习、实例代码学习,是初学tensorflow不机器学习爱好者必看的良心精品,课程授课的老师都是来自谷歌AI团队不Tensorflow框架的开发团队,可以说是唯一的业界良心免费教程。从本文开始,【OpenCV学堂】将推出一系列的文章介绍课程各个章节内容不代码演示部分,前面相关文章阅读回顾:
主要讲了训练集与测试集方法在机器学习,提到如果我们只有一个数据集我们怎么划分训练集与测试集,一个用于训练,一个用于测试。两个数据集需要各自独立,数据集首先要进行随机化之后再差分。对数据集差分之后特别需要注意的是不能对测试数据集进行任何训练,因为这样会容易导致过拟合。如果测试数据集过小,需要进行交叉验证。数据集差分为训练集与测试集可以按照80/20的原则进行:
确保您的测试集满足以下两个条件:
通过将数据集划分为训练集和测试集,您可以判断给定模型能否很好地泛化到新数据。我们对训练集进行训练,然后根据测试集的结果,调整参数,最后得到一个比较好的泛化模型,大致流程如下:
不过,当进行多轮超参数调整时,仅使用两类数据可能不太够,这个时候你需要验证集数据。这样我们就需要把数据集再差分出来一个验证集数据,我们首先根据训练集训练数据,然后在验证集验证,得到比较好的结果,然后对模型使用测试集测试,如果在测试集与验证集上面得到的结果比较一致,就说明我们训练的比较好,如果在验证集上效果比较好,而对测试集数据效果不好,就说明我们模型可能对验证集数据过拟合,上述流程就调整如下:
我们必须从各种各样的数据源中提取数据,然后根据这些数据创建特征向量。从原始数据中提取特征的过程称为特征工程。实践中机器学习从业人员将大概75%的时间花在特征工程中,特征就是我们要的东西,下面我们一起了解一下特征工程是如何发生的。分别以数值类型、字符串类型等如何转换为特征向量,介绍了字符串转码的独热编码方法,另外介绍了特征数据必须具备的条件
可以通过分箱技术获数据映射,使用独热编码生成特征数据,从而将非线性关系映射到模型中。直接将数据仍到程序开始训练是不负责任的做法,需要通过散点图,盒线图、去除离群值,清洗数据等方法,获取比较好的数据