专栏首页贾志刚-OpenCV学堂谷歌机器学习速成课程系列三

谷歌机器学习速成课程系列三

谷歌tensorflow官方推出了免费的机器学习视频课,总计25个课时,支持中英文语言播放、大量练习、实例代码学习,是初学tensorflow不机器学习爱好者必看的良心精品,课程授课的老师都是来自谷歌AI团队不Tensorflow框架的开发团队,可以说是唯一的业界良心免费教程。从本文开始,【OpenCV学堂】将推出一系列的文章介绍课程各个章节内容不代码演示部分,前面相关文章阅读回顾:

谷歌机器学习速成课程系列二

谷歌机器学习速成课程系列一

TensorFlow进行简单的图像处理

Windows下TensorFlow安装与代码测试

第七课 训练集与测试集

主要讲了训练集与测试集方法在机器学习,提到如果我们只有一个数据集我们怎么划分训练集与测试集,一个用于训练,一个用于测试。两个数据集需要各自独立,数据集首先要进行随机化之后再差分。对数据集差分之后特别需要注意的是不能对测试数据集进行任何训练,因为这样会容易导致过拟合。如果测试数据集过小,需要进行交叉验证。数据集差分为训练集与测试集可以按照80/20的原则进行:

确保您的测试集满足以下两个条件:

  • 规模足够大,可产生具有统计意义的结果。
  • 能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同

第八课 验证

通过将数据集划分为训练集和测试集,您可以判断给定模型能否很好地泛化到新数据。我们对训练集进行训练,然后根据测试集的结果,调整参数,最后得到一个比较好的泛化模型,大致流程如下:

不过,当进行多轮超参数调整时,仅使用两类数据可能不太够,这个时候你需要验证集数据。这样我们就需要把数据集再差分出来一个验证集数据,我们首先根据训练集训练数据,然后在验证集验证,得到比较好的结果,然后对模型使用测试集测试,如果在测试集与验证集上面得到的结果比较一致,就说明我们训练的比较好,如果在验证集上效果比较好,而对测试集数据效果不好,就说明我们模型可能对验证集数据过拟合,上述流程就调整如下:

第九课:表示法

我们必须从各种各样的数据源中提取数据,然后根据这些数据创建特征向量。从原始数据中提取特征的过程称为特征工程。实践中机器学习从业人员将大概75%的时间花在特征工程中,特征就是我们要的东西,下面我们一起了解一下特征工程是如何发生的。分别以数值类型、字符串类型等如何转换为特征向量,介绍了字符串转码的独热编码方法,另外介绍了特征数据必须具备的条件

  • 特征必须具有非零值,在数据集中出现次数是多次,如果只出现1次或者几次就不是一个好的特征
  • 特征必须具有清晰明确的表达意义,
  • 特征值不应该随时间发生变化
  • 特征不应该采用不理性的离群值

可以通过分箱技术获数据映射,使用独热编码生成特征数据,从而将非线性关系映射到模型中。直接将数据仍到程序开始训练是不负责任的做法,需要通过散点图,盒线图、去除离群值,清洗数据等方法,获取比较好的数据

本文分享自微信公众号 - OpenCV学堂(CVSCHOOL),作者:gloomyfish

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 最新 | 对象检测YOLOv4版本来了!

    YOLO对象检测模型自问世以来受到计算机视觉开发者的追捧、应用广发,已经陆续发出了三个版本分别是YOLOv1~YOLOv3,现在YOLOv4也出炉了,精度与速度...

    OpenCV学堂
  • OpenCV 3.1.0中特征检测与描述算法接口改动

    OpenCV从 2.4.x升级到3.x中有很多代码重构和性能提高,还有API接口的整合,以Feature2D及其扩展模块的特征检测与描述为例,在OpenCV2....

    OpenCV学堂
  • 学习OpenCV,新手常会问我的十个问题

    赶快去检查/配置环境变量,看看有没有把opencv_world+版本号d.dll所在路径到系统环境变量path中去,如果没有问题,重启VS即可

    OpenCV学堂
  • 深度学习,怎么知道你的训练数据真的够了?

    最近有很多关于数据是否是新模型驱动 [1] [2] 的讨论,无论结论如何,都无法改变我们在实际工作中获取数据成本很高这一事实(人工费用、许可证费用、设备运行时间...

    用户1737318
  • 一文看尽2018全年AI技术大突破

    这一年成为NLP研究的分水岭,各种突破接连不断;CV领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特...

    量子位
  • 以太坊·单机多实例演示

    摘要: 这是一篇演示如何使用一台服务器,运行多个以太坊客户端,并且将节点互联,完成两个节点之间的转账操作。

    netkiller old
  • 海量数据处理利器之布隆过滤器

          看见了海量数据去重,找到停留时间最长的IP等问题,有博友提到了Bloom Filter,我就查了查,不过首先想到的是大叔,下面就先看看大叔的风采。 ...

    mukekeheart
  • 中国移动砸巨资、遣大将,成立新公司,意欲何为?

    近日,有媒体报道,中国移动又成立了一家子公司,意欲进军大医疗领域。此举在当前疫情全球扩散的背景下,尤为引人关注。

    悲了伤的白犀牛
  • VMware和亚马逊竞争云桌面虚拟化

    ? 去年11月亚马逊发布了里程碑式的云端桌面虚拟化服务(DaaS)——WorkSpace,从公共云端向VMware和Citrix把持的桌面虚拟化市场进...

    静一
  • 启动耗时可以这样测~

    启动耗时作为App一项核心性能指标,腾讯地图现在是基本上每个版本都会进行数据的收集。纵向的对比(与自己)之前我们都依赖于开发埋点,横向的对比(与竞品)就是人工拿...

    腾讯移动品质中心TMQ

扫码关注云+社区

领取腾讯云代金券