专栏首页AI小白入门Macheine Learning Yearning学习笔记(一)

Macheine Learning Yearning学习笔记(一)

Chapter1~Chapter 4谈了一些基本概念


Chapter 1、Why Machine Learning Strategy (为什么要学习机器学习策略)

这一章告诉我们机器学习策略的重要性,以一个实际的机器学习项目切入: 猫检测算法,这是一个经典的计算机视觉领域的问题,判断给定一张图片是否是猫。

当我们提出的算法准确性还不够好的时候,我们应该怎么做?这个时候我们可能会面临很多想法的选择,例如:

(1) 获取更多的数据:收集更多的猫的照片

(2) 收集更多样化的训练集。例如,猫在不寻常的位置的图片;不寻常颜色 的猫;不同相机设置下拍摄出的猫图; ....

(3) 增加算法运算的时间,比如增加梯度下降算法的迭代次数

(4) 尝试更大的神经网络,比如增加网络的层数(网络的深度),隐藏单位的个数(网络的宽度),这样网络会具备更多的参数,从而表征能力更强

(5) 尝试更小的神经网络

(6) 尝试添加正则化(例如L2正则化)

(7) 改变神经网络架构(激活功能,隐藏单位数等)

(8) 还有许多其它的idea尝试……

在这些可能会提高准确性的想法中,如果一开始就选择的好,那么会节约很多时间,从而提升效果;如果选择的不恰当,那么可能会浪费大量的时间去进行这些尝试。那么知道了这些,当我们遇到这种情况时,我们应该如何抉择?NG的这本书就是出自这个目的写的。很多机器学习问题给人们留下了很多可以借鉴的经验,这些经验会告诉你,那些尝试是有用的,那些尝试是作用不大的,而学习这些经验可能会节约我们很多瞎尝试的时间。


Chapter 2、How to use this book to help your team (如何使用本书帮助团队)

这一章说了自己为什么每一章都写那么短,这样打印出来也比较方便,随时可看~.~


Chapter 3、Prerequisites and Notation(基本概念)

要熟悉基本的机器学习概念, 如果不熟悉,可以先移步NG的经典机器学习视频。

善良的我已经找好了链接:http://open.163.com/special/opencourse/machinelearning.html

  • 监督学习(supervised learning):使用标记的训练样本(x,y)去学习一个从x映射到y的函数。
  • 监督学习包括:线性回归(linear regression)、逻辑回归(logistic regression)、K-近邻算法(K-Nearest Neighbors)、决策树(Decision Trees)、朴素贝叶斯(Naive Bayesian)、神经网络(neural networks)(也称为”deep learning”)等。
  • 无监督学习包括:聚类(clustering)、降维(reducing dimensionality)

Chapter 4、Scale drives machine learning progress (数据规模驱动了机器学习的进程)

深度学习(神经网络)不是新东西,已经存在几十年了,为什么现在才火起来?这个主要是由以下原因:

  • 数据可用性:人们在数字设备(如电脑)的活动尝试了大量的数据,这些数据可以用来训练和喂给(feed)我们的学习算法。
  • 算力:现在计算机的计算能力提升,使得能够计算更复杂网络和使用更大的数据训练。

举个例子:

即使数据量足够大,传统算法(如逻辑回归)在某个任务上表现性能也是”平稳”的。如下图,意思就是说即使给它更多的数据,算法也不会再有很大的提升效果。

这其实就是在某些任务上,传统算法的函数表征能力不足以学习到这么多数据。这个时候神经网络就登上历史舞台了。

在这种情况下,我们会得到更好的性能,当我们有:

(1)训练一个非常大的神经网络,使其在上面的绿色曲线上;

(2)有大量的数据。

当然神经网络的架构也很重要,这一点也有很多创新。

但是现在提高算法性能的更可靠的方法之一仍然是:

(1)训练更大的网络;

(2)获得更多的数据。

如何合适的完成(1)和(2)的方法是极其复杂的,这也是NG这本书要详细讨论的事情。

注意:上图Small NN指的是具有相对较少的隐藏单元、隐藏层、参数的神经网络。

参考:

1.http://www.mlyearning.org/

2.https://xiaqunfeng.gitbooks.io/machine-learning-yearning/content/


更多个人笔记请关注:

知乎专栏:https://www.zhihu.com/people/yuquanle/columns

公众号:StudyForAI(小白人工智能入门学习)

本文分享自微信公众号 - AI小白入门(StudyForAI)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • opencv 8 --背景减除 -- BackgroundSubtractorMOG2

    例如顾客统计,使用一个静态摄像头来记录进入和离开房间的人数;或者是交通摄像头,需要提取交通工具的信息等。

    wust小吴
  • 独家 | 菜鸟级机器学习入门(附代码实例)

    本文中,数据科学创业公司Yhat的前联合创始人,现任Waldo的联合创始人兼首席技术官Greg Lamp将会为我们这些机器学习菜鸟分享他对机器学习的看法。

    数据派THU
  • 【Rust日报】 2019-05-23:性能强悍的 blake2b_simd 和 blake2s_simd 姐妹花

    BLAKE 和 BLAKE2 是密码学哈希函数,来源于 Dan Bernstein 的 ChaCha。特点是在64位机上,性能比 SHA-3, SHA-2, S...

    MikeLoveRust
  • 22 省遭受重大洪灾,机器学习未来能预报么?

    场景描述:在人类历史上,洪水灾害每年都会发生,这是世界上最严重的自然灾害之一。虽然不可避免,但是如果能够做好准确预报,洪水造成的损失则会减少三分之一甚至更多。科...

    Sam Gor
  • 2019年最亟待解决的11个AI伦理困境

    现在是时候讨论A.I.的道德问题了。虽然机器学习不是一项新的技术发展,但现在是人工智能发展的关键时刻。要面对的道德问题有很多,包括以下提到的十一种。

    统计学家
  • 【犀牛鸟·学问】计算机图形学的前沿研究与跨界应用(201904)——CCF-腾讯犀牛鸟基金线上学术报告

    ? 设立CCF-腾讯犀牛鸟基金线上学术报告交流活动,其主要目的是为参与基金项目的青年学者、企业研发专家及项目相关的研究型人才提供一个广泛而专业的学术交流平台。...

    腾讯高校合作
  • 【推荐收藏】带你读一遍 XGBoost论文(上)

    XGBoost作为一个非常常用的算法,我觉得很有必要了解一下它的来龙去脉,于是抽空找了一些资料,主要包括陈天奇大佬的论文以及演讲PPT,以及网络上的一些博客文章...

    Sam Gor
  • 现场报道 SIGMOD 2019 数据库顶级会议

    | 导语ACM SIGMOD/PODS 2019 数据管理国际会议于6月30日到7月5日在荷兰首都阿姆斯特丹召开。腾讯技术团队直击现场第一时间带回大会盛况。 ...

    腾讯数据库技术
  • 【开源公告】NeuralNLP-NeuralClassifier - 深度学习文本分类工具

    NeuralNLP是腾讯广告(Tencent Marketing Solution,TMS)(https://e.qq.com/)数据算法团队搭建的一个基于P...

    腾讯开源
  • 一文看尽飞桨PaddlePaddle最新升级:5大优势,更低门槛使用深度学习

    从Paddle Fluid v1.0以来,飞桨致力于打造更好的用户体验,趁着百度开发者大会,也为用户精心准备了一份大礼,在开发、训练及部署全流程上进行了全新升级...

    量子位

扫码关注云+社区

领取腾讯云代金券