机器学习(4)之线性判别式(附Python源码)

关键字全网搜索最新排名

【机器学习算法】:排名第一

【机器学习】:排名第二

【Python】:排名第三

【算法】:排名第四

LDA是什么?

线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。

LDA的思想还是很简单的:给定训练样本,设法将样本投影到一条直线或者一张超平面上,使得同类样例点的投影尽可能的接近,异类样本点的投影尽可能远离;在对新的样本点进行分类时,将其投影到上述确定的这条直线上,再根据投影点的位置来确定新样本的类别,如下图所示(为方便可视化,以二维数据为例)

该图来源于《机器学习》

如图所示,可以看到两个类别,一个黑点类别,一个黑×类别。现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴,不同类别之间会有重复,导致分类效果下降。图中所示直线就是用LDA方法计算得到的,可以看到,黑点类别和黑×类别在映射之后之间的距离是最大的,而且每个类别内部点的离散程度是最小的(或者说聚集程度是最大的)。

LDA数学理论

在上一小节我们以语言的形式描述了LDA的原理。并以机器学习中的图为例说明了为什么这种方法在分类时会有比较好的效果。现在,我们从理论上证明这种方法的可行性,并为接下来的算法实现铺垫基础。

在正式推导公式之前我们需要理解两件事情:

1、为了实现投影后的两个类别的距离较远,用映射后两个类别的均值差的绝对值来度量。

2、为了实现投影后,每个类内部数据点比较聚集,用投影后每个类别的方差来度量。

因为在公众号的排版中不能书写公式,我了方便起见,这儿直接以《机器学习》中的内容为主,假如您觉得影响阅读效果的话可以直接参考《机器学习》的第三章第四节或者加入机器学习交流群(429055771,或者扫面文末二维码)下载电子版,有任何问题我们可以一起讨论。

Python实现

源代码下载请在后台回复关键词:LDA,或者加入机器学习交流2群(634808033)在文件区中下载。

参考:

1. 周志华《机器学习》

2. Duanxx的博客:http://blog.csdn.net/daunxx/article/details/51881956

3. 艳光普照的博客:http://blog.csdn.net/szv123_rier/article/details/8766538

4. porly的博客:http://blog.csdn.net/porly/article/details/8020696

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2017-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【CVPR 2018热文】MIT提出“透明设计”网络,揭开视觉黑盒

【新智元导读】MIT和普朗克航空系统公司的研究人员合作,提出了一类“透明设计网络”,在李飞飞等人提出的视觉理解数据库CLEVR上达到了99.1%的准确率,他们设...

35650
来自专栏磐创AI技术团队的专栏

目标检测算法上手实战

从广义上说,计算机视觉就是“赋予机器自然视觉能力”的学科。计算机视觉与人工智能有密切联系,但也有本质的不同。人工智能更强调推理和决策,但至少计算机视觉目前还主要...

57660
来自专栏人工智能头条

鸡蛋煎的好不好?Mask R-CNN帮你一键识别

11730
来自专栏机器之心

学界 | 新研究提出DeepXplore:首个系统性测试现实深度学习系统的白箱框架

选自arXiv 机器之心编译 作者:Kexin Pei等 参与:吴攀、李亚洲 对于自动驾驶系统等事关人身安全的深度学习应用,了解其在极端情况下的表现是非常重要的...

36890
来自专栏AI科技评论

学界 | 新的网络优化方法:随机权值平均

AI 科技评论按:在本文中,数据科学研究人员 Max Pechyonkin 讨论了最近两篇有趣的论文,它们提供了一种简单的方法,通过用一种巧妙的集成方式来提高任...

15320
来自专栏人工智能

带你通俗易懂的理解人工智能算法一

我们所谓的人工智能算法就是一个机器嵌入了这个算法后,这个机器就拥有了人所具有的基本能力,比如观察、思考、学习、创造等,本文要说的就是这个算法。 人工智能算法主要...

30990
来自专栏LhWorld哥陪你聊算法

【机器学习】--LDA初始和应用

LDA是一种 非监督机器学习 技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(b...

13430
来自专栏机器之心

教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模

在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其主题。在文档集合中学习、...

13900
来自专栏AI研习社

英伟达发布新算法,可以重建缺失像素

日前,英伟达公司由 Guilin Liu 领导的研发团队发布了一种最先进的深度学习算法,可以编辑图像或复原那些像素有缺失的图像。

13730
来自专栏AI研习社

博客 | 新的网络优化方法:随机权值平均

在本文中,数据科学研究人员 Max Pechyonkin 讨论了最近两篇有趣的论文,它们提供了一种简单的方法,通过用一种巧妙的集成方式来提高任何给定神经网络的性...

10120

扫码关注云+社区

领取腾讯云代金券