前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >异常值检测

异常值检测

作者头像
小爷毛毛_卓寿杰
发布2019-04-22 10:48:36
7410
发布2019-04-22 10:48:36
举报
文章被收录于专栏:Soul Joy Hub

1. Anomaly Detection

异常值检测想要做的任务是从数据中找出与其他数据显著不同的数据,其具体应用有如:信用卡盗卡检测、网络攻击检测、癌细胞检测等。

2. Binary Classfication?

异常值检测能不能看做一个二分类任务来建模?通常来说,异常值不能被看做为一个类别,因为异常值的种类实在是太多了。比如说做数字图片分类,有异常值图片根本就不是0~9中的某一个数字,但不是0~9的图片种类实在是太多了,根本不能把它们看做是一个类别。

异常值检测还有一个挑战就是:通常异常值样本很难被收集到。所以异常值检测很难直接被看做二分类任务。

3. 有Label数据的异常值检测

有Label数据如何做异常值检测呢?比较直观的想法,在做分类任务时,输出一个置信分,并设定一个阈值,如果置信分小于该阈值就判定为异常值。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

异常值检测任务:

  • 收集训练集,训练集全部为正常值
  • 训练分类模型
  • 收集验证集,验证集中含着异常值样本
  • 利用AUC等来衡量异常检测效果

4. 无Label数据的异常值检测

4.1 Likelihood

无Label数据的异常值检测思想和朴素贝叶斯相似,使用最大似然估计。我们可以假设各个特征的取值概率分布为高斯分布:

在这里插入图片描述
在这里插入图片描述

likelihood:

在这里插入图片描述
在这里插入图片描述

正态分布的最大似然估计和矩估计相同,所以有:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

于是便可以构建异常检测:

在这里插入图片描述
在这里插入图片描述
4.2 Auto-Encoder

另外一种比较直观的想法是利用Auto-Encoder。如Auto-Encoder对数字图片进行编码,训练完成后,若输入图片非数字,输出的解码结果将与输入图片存在较大差异。

在这里插入图片描述
在这里插入图片描述
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年04月15日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Anomaly Detection
  • 2. Binary Classfication?
  • 3. 有Label数据的异常值检测
  • 4. 无Label数据的异常值检测
    • 4.1 Likelihood
      • 4.2 Auto-Encoder
      相关产品与服务
      高级威胁检测系统
      腾讯云高级威胁检测系统(Network Traffic Analysis System,NTA)(简称:腾讯御界),通过镜像方式采集企业网络边界流量,结合腾讯多年积累的海量安全数据,运用数据模型、安全模型、感知算法模型识别网络攻击及高级威胁(APT)。同时,对事件告警原始流量进行留存,方便事后追溯,可极大提升云环境下的威胁感知能力。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档