白话深度学习与TensorFlow(一)

第一章 机器学习是什么

机器学习种类

  • 从学习的种类来说,最常见的我们习惯分为两种:
    • 无监督学习(unsupervised learning)
    • 有监督学习(supervised learning)
  • 此外还有:
    • 半监督学习(semisupervised learning)
    • 强化学习(reinforcement learning)
    • 等等

聚类(clustering)

聚类是一种典型的“无监督学习”,是把物理对象或抽象对象的集合分组为由彼此类似的对象组成的多个类的分析过程。

简单来讲,就是一个归类的过程,我们在动物园看到的金丝猴、猕猴、长鼻猴等,它们都属于猴子类。马路上看到的各种小轿车、卡车、跑车等等,它们都属于汽车类。

比较常用的聚类算法:

  • K-Means
  • DBSCAN

基本思路都是利用每个向量之间的“距离”--空间中的欧氏距离或者曼哈顿距离,从远近判断是否从属于同一类别。

image

在用机器做聚类学习的时候,我们每种算法都对应有相应的计算原则,可以把输入的各种看上去彼此“相近”的向量分在同一个群组中。

回归(regression)

回归是一种解题方法,或者说“学习方法”,也是机器学习中比较重要的内容。 简单来讲,就是“由果索因”的过程,是一种归纳的思想--通过大量的样本,推测出其中蕴含的某种关系。

最常用的回归有两大类:

  • 线性回归
    • y = f(x) = wx + b

    这里的w和x分别是1×n(1行n列)和n×1(n行1列)的矩阵。

image 那么把每一个患者的(年龄、身高、体重、血压、血脂)具体向量值带入,并把血糖程度y值也代入。至此形成一个六元一次方程组,其中未知数是w1-w5和b,即我们需要通过大量训练所求的“合适”的解。

  • 如何验证呢?

image 其中wx + b是我们推测的血糖值,y是真实样本的血糖值,它们两者之间差值的绝对值即是误差,Loss求的是所有误差的和,Loss越小说明这个映射关系描述越精确。 Loss = f(w, b) 再使用相应的方法找出保证Loss尽可能小的w和b的取值,就算大功告成了。

  • 数据集分为训练集和验证集

训练集用作训练、归纳关系,验证集数据用来验证,避免拟合现象(后续会讲拟合),训练集和验证集一般比例为7:3或8:2。

  • 非线性回归
    • 逻辑回归

image

image 横轴是z,纵轴是y,一个多维的x经过这样两次投射在y上是一个取值只有1和0二项分布。

分类

分类是机器学习中使用的最多的一大类算法,我们通常也喜欢把分类算法叫做“分类器”。 我们在编写代码教会分类器怎么学习的时候,其实是在教它如何建立一种输入到输出的映射逻辑,以及让它自己调整这种逻辑关系,使得逻辑更为合理。而合理与否的判断也非常明确,那就是召回率和精确率两个指标--召回率指的是检索出的相关样本和样本库中所有相关样本的比率,衡量的是分类器的查全率。精确率是检索出的相关样本数与检索出的样本数的比率,衡量的是分类器的查准率。 具体例子: 有一个1000样本的训练集,1000张照片,200张猫,200张狗,600张兔子。经过分类器分类:

  • 200张猫中180张正确,20张识别为狗
  • 200张狗全部正确
  • 600张兔子中550张正确,30张识别为猫,20张识别为狗

image

综合应用

  • 垃圾邮件分拣
  • 新闻自动分类
  • 摄像头对车牌号OCR识别
  • 使用卷积神经网络对照片进行风格处理(普通照片生成艺术图片)
  • 语音识别
  • 学术领域:“对坑学习”
  • 无人驾驶

小结

一言蔽之,机器学习就是人类定义一定的计算机算法,让计算机根据输入的样本和一些人类的干预来总结并归纳其特征与特点,并用这些特征和特点与一定的学习目标形成映射关系,进而自动化地做出相应反应的过程。 作者认为,机器学习是大数据的一个子范畴。 机器学习也分为:

  • 传统的机器学习
  • 深度学习

其主要区别:传统的机器学习通常需要人提前做特征提取,把提取的特征向量化在丢给模型去训练,需要人做前置工作。而深度学习通常可以采用End-to-End的学习方式,输入的内容只需要做很少的一些归-化(normalization)、白化(whitening)等处理就可以丢给模型去训练,通常不需要人来做特征提取工作。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

入门 | 零基础入门深度学习——线性单元和梯度下降

为了帮助编程爱好者,从零开始入门,AI100特别精选了韩炳涛所著《零基础入门深度学习》系列文章,以下Enjoy! 作者 | 韩炳涛 无论即将到来的是大数据时代还...

3778
来自专栏IT派

机器学习算法梳理

前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘...

3228
来自专栏AI科技大本营的专栏

详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割

译者 | 王柯凝 【 AI 科技大本营导读】目前,计算机视觉是深度学习领域最热门的研究领域之一。计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形、算...

7517
来自专栏PPV课数据科学社区

【V课堂】机器学习系列:(二)线性回归

线性回归 本章介绍用线性模型处理回归问题。从简单问题开始,先处理一个响应变量和一个解释变量的一元问题。然后,我们介绍多元线性回归问题(multiple line...

34811
来自专栏红色石头的机器学习之路

台湾大学林轩田机器学习基石课程学习笔记13 -- Hazard of Overfitting

上节课我们主要介绍了非线性分类模型,通过非线性变换,将非线性模型映射到另一个空间,转换为线性模型,再来进行分类,分析了非线性变换可能会使计算复杂度增加。本节课介...

2040
来自专栏人工智能

机器学习算法:选择您问题的答案

当我开始涉足数据科学时,我经常面临为如何我的问题选择最合适的算法的问题。如果你像我一样,当你看到一些关于机器学习算法的文章时,你会看到许多详细的描述。但是,即使...

3677
来自专栏机器学习和数学

[高大上的DL] Deep Learning中常用loss function损失函数的小结

在前面我们分享的如何来训练CNN中,提到了BP算法,还记得BP算法是怎么更新参数w,b的吗?当我们给网络一个输入,乘以w的初值,然后经过激活函数得到一个输出。然...

1.3K8
来自专栏AI研习社

视频 | 硅谷深度学习网红传授超参数优化宝典

AI 研习社按:今天为大家带来硅谷深度学习网红 Siraj 在人工智能在线大会 AI WITH THE BEST(AIWTB)上的演讲,雷锋字幕组独家译制。本次...

3415
来自专栏AI科技评论

ICML论文|这违反直觉的“升噪”方法,反而能很好的解决激活函数梯度弥散的问题

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

3338
来自专栏大数据挖掘DT机器学习

机器学习算法总结(面试用到)

找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习...

6089

扫码关注云+社区