机器学习入门系列01,Introduction

引用课程:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

先看这里,可能由于你正在查看这个平台行间公式不支持很多的渲染,所以最好在我的CSDN上查看,传送门:(无奈脸)

CSDN博客文章地址:http://blog.csdn.net/zyq522376829/article/details/66478149

我们将要学习什么东东?

什么是机器学习?

有右边这样非常大的音频数据集,写程序来进行学习,然后可以输出音频“Hello”

有右边这样非常大的图片数据集,写程序来进行学习,然后可以识别左边这样图,识别为正确的物种。

机器学习 $\approx$ 寻找一个函数

Framework 框架

  • Image Recognition 图像识别

函数集($f_{1},f_{2},\ldots $),通常将一个函数称为Model(模型)

为了找到最好的函数 $f$ ,将训练集图像放入函数集的输入中,函数集输出识别结果。

下面来看具体步骤

Step1.确定一组函数(Model),函数集怎么找后面会再介绍。 Step2.将训练集对函数集进行训练。 Step3.挑选出“最好”的函数 $f^{}$ 然后就可以使用 $f^{}$ 来对新的测试集进行检测。

整体都学习哪些知识(Learning Map)

Regression(回归)是什么?

Regression 意思是,我们要找到这样一个函数 $f$,使得输出为 scalar(标量,数值)

这里说法当然是比较不严谨,数学上简单的线性,一元或多元回归的知识可以在概率论与数理统计课本中进行学习。《概率论与数理统计》,浙江大学,第九章,P244。

举个例子,比如预测PM2.5.

输入就是之前每一天的PM2.5数值,输出是明天的PM2.5,是个标量。 具体做法:

Classification(分类)

分类比较容易理解,比如二元分类或者多元分类。

Binary Classification(二元分类)

比如垃圾邮件过滤,就是要找到一个Function,输入为一封邮件,输出是二元的,是或者不是垃圾邮件。训练集就是很多封邮件,每一封邮件知道它是否是垃圾邮件,让Function进行学习。

Multi-class Classification(多元分类)

多元分类;例如下面的新闻分类系统,找一个Function,输入就是新闻的内容,输出则是新闻的类型(政治,经济,体育等等)

Deep Learning(深度学习)

上面讲过,机器学习的第一个步骤就是确定一个函数集,可以选择Linear Model(线性模型),但是 Linear Model 比较有限。更多的则是 Non-lilnear Model(非线性模型)。比如深度学习就是 Non-lilnear Model 。

举个例子,比如图像识别:

这里举例深度学习中的一种,Convolutional Neural Network(CNN,卷积神经网络),输入就是很多的图像,输出为图像的类型,这里将每个对象都当作一个类别。训练集就是很多张图片,并告诉机器每张图片对应的是什么类型。深度学习的Function非常复杂。

再举一个例子,下围棋:

输入就是黑白子在1919棋盘上的位置,输出就是下一步应该下在哪里。这也就是一个选择题,可能的选项有1919个。

训练集就是一堆棋谱,每一步是怎么走的。

Supervised Learning(有监督学习)

Non-lilnear Model 不只Deep Learning,后面还会接触到SVM,decision tree等。 上面提到这些我们都叫做Supervised Learning(有监督学习),所谓 Supervised Learning 就是说训练集的输入和输出对于目标函数是成对的,目标函数看到一个输入,就应该对应有一个输出。也把这样的输出叫做 label。 见到说需要 Labelled data 的情况,就是指我们要告诉机器看到一个输入,要有一个输出。

其他的比如还有Semi-supervised Learning(半监督学习)

Semi-supervised Learning(半监督学习)

比如图像识别一些猫和狗,Labelled data 就是训练集中每个图片知道它对应的是什么类型。而Unlabelled data 就是不知道图片对应的类型。这种其实也是可以让机器学习的比较好的,后面也会介绍。

Transfer Learning(迁移学习)

举例说一下迁移学习:

比如有 Labelled data ,但我们还有一些labelled 或者 unlabelled 数据,这些数据和 Labelled data 中识别猫和狗都没有关系,但它也是怎么帮助Labelled data 更好的识别。这就是 Transfer Learning 要做的事情。

Unsupervised Learning(无监督学习)

举一个Unsupervised Learning 的例子:让机器阅读非常多的文章,然后机器就可以学习单词的含义。

这个Unsupervised Learning 的例子中,训练集只有输入(很多的文章),没有输出。假设通过Neural Network(神经网络)学习之后,给一个单词,就可以输出一个向量。

再举一个例子:比如想要让机器绘制一下自己的内心世界。

具体说就是给机器一堆数字,他就能自己绘制一张图片,此时训练集只有输出(很多的图片),没有输入。

Structured Learning(结构化学习)

比如看下面例子:第一个是语音识别,假设我们想要找的function是输入一段语音,然后输出语音的文字。如果把世界上不同的句子当作一个类别,这样是没有办法穷举所有类型的,所以这种超越分类的问题,就需要另外一套完整的思想来解决。 还有例子就是机器翻译,将中文翻译成英文,也是没有办法穷举所有的句子。再或者人脸识别,没有办法穷举所有人脸框。

Reinforcement Learning(增强学习)

举个Reinforcement Learning 的例子:AlphaGo。 举例来比较 Supervised 和 Reinforcement:比如学习对话,Supervised 训练集每句话,都有对应的输出;但是Reinforcement就只是不断的对话,机器只能知道它做的好或者不好,没有其他更多的信息。

再举一个围棋的例子,比如 Supervised 情况就是机器看到一个棋局,告诉它下一步应该走什么。Reinforcement 的情况就是走了很多步,输了或者赢了,就是知道一个结果。AlphaGo 就是两个都用到了,先看棋谱学习,但是棋谱的数量是有限的,然后再进行增强型学习。所以 AlphaGo 第一轮和世界高手对局时还捉襟见肘,第二轮就基本横扫了。

理解Learning Map颜色的意义

蓝色的都是代表Scenario(方案),红色部分指的是你要找的function的样子,可以在Semi-supervised Learning 的情况下做红色的task,也可以在 Transfer Learning下做红色task,就是右上角的4个虽然是小方块,但是 Supervised Learning 里面的 task 都可以在其他蓝色 scenario 中做。绿色的部分就是方法或者说模型,绿色的内容虽然写在 Classification 里面,但是可以放在 Regression 或者 Structured Learning 中。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

干货:基于树的建模-完整教程(R & Python)

来源:“数盟社区” 原文链接:http://dataunion.org/23697.html 简介 基于树的学习算法被认为是最好的方法之一,主要用于监测学习方...

3517
来自专栏新智元

机器学习:用初等数学解读逻辑回归

逻辑回归问题的通俗几何描述 逻辑回归处理的是分类问题。我们可以用通俗的几何语言重新表述它: 空间中有两群点,一群是圆点“〇”,一群是叉点“X”。我们希望从空间...

35215
来自专栏媒矿工厂

适用于视频编码帧间预测分数像素插值的卷积神经网络方法简介

一、背景介绍 随着超高清(UHD,Ultra High Definition)概念的普及,4K分辨率的视频应用越来越受到消费者的青睐。4K分辨率的视频应用在为消...

38614
来自专栏数据派THU

VAE、GAN、Info-GAN:全解深度学习三大生成模型

来源:1024深度学习 作者:冯超 本文长度为2600字,建议阅读6分钟 本章介绍基于深度学习思想的生成模型——VAE和GAN,以及GAN的变种模型。 在深度学...

3888
来自专栏AI科技大本营的专栏

干货 | 深度详解ResNet及其六大变体

编译 | 图普科技 本文由图普科技工程师编译自《An Overview of ResNet and its Variants》。 从AlexNet[1]在201...

4096
来自专栏IT派

从香农熵到手推KL散度:一文带你纵览机器学习中的信息论

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来...

3558
来自专栏BestSDK

谷歌开放一种新的图像分类卷积神经网络模型

为了在该领域取得更多进展,今天我们非常高兴的宣布开放 Inception-ResNet-v2,这是一个在 ILSVRC 图像分类基准上取得顶尖准确率的卷积神经网...

2419
来自专栏机器之心

从香农熵到手推KL散度:一文带你纵览机器学习中的信息论

39310
来自专栏杨熹的专栏

RNN的高级应用

本文结构: 四个问题 每个问题是什么 应用什么模型 模型效果 ---- CS224d-Day 11: Recursive neural networks -...

3505
来自专栏张耀琦的专栏

【机器学习入门系列】简介

本文深入浅出地介绍了什么是机器学习以及机器学习所研究的内容与机器学习的三大步骤;并举例深度学习、有监督学习、半监督学习、迁移学习、无监督学习、结构化学习、增强学...

1.3K0

扫码关注云+社区