专栏首页专知春节充电系列:李宏毅机器学习笔记13之无监督学习:主成分分析(PCA)

春节充电系列:李宏毅机器学习笔记13之无监督学习:主成分分析(PCA)

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的半监督学习,这一节将主要针对讨论无监督学习:主成分分析(PCA)。本文内容涉及机器学习中无监督学习的若干主要问题:k-means,HAC,dimension reduction以及PCA。话不多说,让我们一起学习这些内容吧

春节充电系列:李宏毅2017机器学习课程学习笔记01之简介

春节充电系列:李宏毅2017机器学习课程学习笔记02之Regression

春节充电系列:李宏毅2017机器学习课程学习笔记03之梯度下降

春节充电系列:李宏毅2017机器学习课程学习笔记04分类(Classification)

春节充电系列:李宏毅2017机器学习课程学习笔记05之Logistic 回归

春节充电系列:李宏毅2017机器学习课程学习笔记06之深度学习入门

春节充电系列:李宏毅2017机器学习课程学习笔记07之反向传播(Back Propagation)

春节充电系列:李宏毅2017机器学习课程学习笔记08之“Hello World” of Deep Learning

春节充电系列:李宏毅2017机器学习课程学习笔记09之Tip for training DNN

春节充电系列:李宏毅2017机器学习课程学习笔记10之卷积神经网络

春节充电系列:李宏毅2017机器学习课程学习笔记11之Why Deep Learning?

春节充电系列:李宏毅2017机器学习课程学习笔记12之半监督学习(Semi-supervised Learning)

课件网址:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

视频网址:

https://www.bilibili.com/video/av15889450/index_1.html

李宏毅机器学习笔记13 Unsupervised Learning : Principle Component Analysis(无监督学习:主成分分析)

Unsupervised learning指的训练集都没有label,unsupervisedlearning分为两种,只有输入的叫做cluster或者dimension reduction,只要输出的叫做generation。

1. K-means


最简单的算法是K-means,先随机找出k个中心,x离哪个中心最近输入哪个类,然后重新找出这些类的中心,一直循环下去直到收敛。

2. HAC


还有一个聚类方法叫做hierarchical agglomerative clustering(HAC),先找最相近的两个连在一起,然后取平均,一次类推(类似哈弗曼树),最后根据阈值一刀切,分类。

但这样直接分类太粗糙了,我们可以使用分布式表示来表达一个x。

3. dimension reduction


将一个高维空间的x在低维空间表示叫做dimension reduction。

因为有时候不需要那么高的维度来描述一张image,如下图就用一维就可以表示,10,20为旋转的度数。

Dimension reduction最简单的方法是featureselection,选取最有用的维度,拿掉没有用的维度。

4. PCA


然后另一个常见的方法就是PCA

当PCA只有一维的时候,我们是找出让z1区分度最大的w1,

同理,如果有两维的话,找出让除z1以外z2区分度最大的w2,

将var(z1)进行转化后可以得到下图所示的式子

利用lagrange multiplier我们可以发现得到的w1是S的特征向量,其对应的特征值α是最大值。

当降维到两维时,得到的w2是S第二大特征值对应的特征向量

降维后得到的z其协方差矩阵是对角矩阵

PCA可以应用在手写数字辨识中,手写数字是由一些basiccomponent组成的,每个component是一个vector

于是每张图像可以用这些component加权表示

我们的任务是找出k个component使得reconstruction error最小

矩阵化可以表示成这样

利用SVD发现X和X转置乘积的前k个最大特征值对应的特征向量就是其解

实际上PCA也可以表示出网络的形式,这种网络我们称为自编码器

但PCA也有缺点,多个类别的数据混合在一起的话用PCA会导致无法分开

将这个s形拉开是对于PCA做不到的

想了解更多关于PCA的知识参考以下资料

后台回复“LHY2017” 就可以获取 2017年李宏毅中文机器学习课程下载链接~

-END-

本文分享自微信公众号 - 专知(Quan_Zhuanzhi),作者:专知内容组

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 春节充电系列:李宏毅2017机器学习课程学习笔记19之迁移学习(Transfer Learning)

    【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的deep generative model (part 2),这一节将主要针对讨论tr...

    WZEARW
  • 春节充电系列:李宏毅2017机器学习课程学习笔记17之深度生成模型:deep generative model part 1

    【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的auto-encoder,这一节将主要针对讨论deep generative mode...

    WZEARW
  • 春节充电系列:李宏毅2017机器学习课程学习笔记08之“Hello World” of Deep Learning

    【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的backpropagation,这一节将主要针对深度学习的简单实践展开分析。本文内容涉...

    WZEARW
  • 春节充电系列:李宏毅2017机器学习课程学习笔记19之迁移学习(Transfer Learning)

    【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的deep generative model (part 2),这一节将主要针对讨论tr...

    WZEARW
  • 春节充电系列:李宏毅2017机器学习课程学习笔记20之支持向量机(support vector machine)

    【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的迁移学习(transfer learning),这一节将主要针对讨论支持向量机(sup...

    WZEARW
  • 为什么游戏遇上大数据后更易让人上瘾

    本文转自网络,如涉及侵权,请及时联系我们 在一个学习编程的课堂上,老师让孩子们用类似“嗨,大家好,我是×××”的句式介绍自己,孩子们的介绍五花八门,李白、荆轲、...

    CDA数据分析师
  • 想转行人工智能?机会来了!!!

    昱良
  • 建筑和空间

    王兵
  • 巧用WinRAR+Javascript解决activeX的自动安装问题

    先纠正一个观点,所谓自动安装并非强制安装,否则就变成流氓软件了,就算是silverlight,flash这类知名ActiveX,用户也有选择安装或是不安装的权利...

    菩提树下的杨过
  • 人工智能、机器学习、深度学习、数据挖掘、数据分析都是什么意思

    在开始学习python大数据之前,我们先要搞清楚人工智能、机器学习、深度学习、数据挖掘、数据分析都是什么意思。 会用30多堂课的内容带大家学习python、数据...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券