一个奇异值的江湖 -- 机器学习观

前面我们熟悉了经典统计处理outlier的方法。 这里会说明常见的机器学习的方法。

在展示算法之前, 有几类特殊的数据类型可能需要强调一下, 因为这些数据特性会影响到具体算法的选择的:

1. 基于距离的数据 (Distance based)

2. 相关性维度的数据 (Correlated dimensions)

3. 类别数据 (Categorical data)

4. 高维度数据 (High dimensional)

机器学习方法

机器学习根据是否有监督一般可以分为三类: supervised, unsupervised, semi-supervised。

为什么要探讨这三种模式,其实主要看你是否有经验数据的积累。

1) 一般来说, 如果你之前人工收集了大量的outlier数据的积累, 你想把这些信息有效的用起来, 那么监督学习是最好的。

2) 但是如果你没有outlier的积累, 或者这种手工积累太麻烦, 你就希望自动找出一些outlier来。

3) 如果你通过无监督找到一部分oulier,然后交互式的标记一些, 然后希望找到更为精确, 那么半监督就是一个很好的方式。

有监督 (Supervised)

1. Gaussian Mixture Model (GMM, 高斯混合模型) :

2. Bayesian Networks (贝叶斯网络)

3. Support Vector Machine (SVM, 支持向量机):

4. Multi-Layer Perceptron (MLP, 多层神经网络):

5. K Nearest Neighbor (KNN, K 近邻)

Rule-based Systems (基于规则的系统):

无监督 (Unsupervised)

6. DBScan(Density based, 基于密度的聚类)

7. Spectral Clustering (谱聚类)

8. Principal component analysis (PCA, 主成分分析, Dimension Reduction, 维度压缩) 高维数据

半监督 (Semi-supervised)

Collective anomaly anlaysis (聚集的奇点分析)

优缺点说明

有监督

优点:

  1. 能进一步区分outlier的更细的类别。
  2. 对于新增数据不需要重新计算

缺点:

  1. 要求有大量的标记数据集
  2. 不能捕捉未知outlier
  3. 部分分类算法不能给定是outlier的可能性

无监督

优点:

  1. 不需要已标记数据
  2. 能够给定outlier额外的距离,或者概率信息

缺点:

  1. 对样本的采集有很高要求, 要求样本分布和真是分布一直。
  2. 对于分布复杂的数据有一定局限性。
  3. 对聚类算法本身过于敏感。
  4. 新数据来的计算量会比较大。

半监督

优点:

  1. 能够兼顾有监督和无监督的优点

缺点:

  1. 没有固定的算法
  2. 需要领域背景知识

机器学习 VS 经典统计

经典统计:

优点:

  1. 统计正确,容易解释
  2. 可以看成无监督过程

缺点:

  1. 对样本和假设检验的设定要求高
  2. 对于复杂结构的数据难以处理

机器学习:

优点:

  1. 可用的方法选择多, 大量现有工具
  2. 适用的数据范围广

缺点:

1. 存在可解释性的问题

参考:

https://en.wikipedia.org/wiki/Local_outlier_factor

原文发布于微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文发表时间:2016-11-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WD学习记录

机器学习 学习笔记(4)牛顿法 拟牛顿法

的值,函数f(x)有极值的必要条件是在极值点处一阶导数为0,即梯度向量为0.特别是当

31910
来自专栏SIGAI学习与实践平台

OCR技术简介

同时在本微信公众号中,回复“SIGAI”+日期,如“SIGAI0515”,即可获取本期文章的全文下载地址(仅供个人学习使用,未经允许,不得用于商业目的)。

51550
来自专栏AI科技评论

大会 | 腾讯AI Lab 21篇CVPR 18录用论文详解

AI 科技评论按:CVPR 2018 日前已公布录用名单,腾讯 AI Lab 共有 21 篇论文入选。本文转载于「腾讯 AI 实验室」, AI 科技评论经授权转...

43850
来自专栏AI科技评论

论文 | Twitter在超分辨率技术上取得新进展,能还原打码图片

AI科技评论按:受到万众瞩目的ICLR已经于今天在法国土伦召开。该大会由Yann LeCun 、 Yoshua Bengio 等几位行业顶级专家于2013年发起...

38340
来自专栏人工智能头条

面向图像分析应用的海量样本过滤方案

15220
来自专栏CVer

YOLOv3:你一定不能错过

原标题: YOLOv3: An Incremental Improvement 原作者: Joseph Redmon Ali Farhadi 翻译者: Am...

2.2K200
来自专栏AI研习社

十个例子,教你用统计学方法高效完成机器学习项目

事实上,这两者的界限有时候非常模糊。然而有一些明显属于统计学领域的方法,不仅可用于机器学习的项目,并且极具价值。

9520
来自专栏人工智能头条

CVPR 2018 | 腾讯AI Lab 21篇入选论文详解

20680
来自专栏AI研习社

各种机器学习的应用场景分别是什么?

关于这个问题我今天正好看到了这个文章(http://t.cn/RJrTSLV)。讲的正是各个算法的优劣分析,很中肯。 正好14年的时候有人做过一个实验[1],比...

1.2K100
来自专栏AI科技评论

学界丨Facebook Yann LeCun最新演讲: AI 研究的下一站是无监督学习(附完整视频加37页PPT)

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一。 近日,LeCun在卡内基梅隆大...

38060

扫码关注云+社区

领取腾讯云代金券