前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习(十一)-------- 异常检测(Anomaly Detection)

机器学习(十一)-------- 异常检测(Anomaly Detection)

作者头像
大数据流动
发布2019-08-08 14:19:40
9060
发布2019-08-08 14:19:40
举报
文章被收录于专栏:实时计算

异常检测(Anomaly Detection) 给定数据集 ?(1),?(2),..,?(?),我们假使数据集是正常的,我们希望知道新的数据 ????? 是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据 该测试数据的位置告诉我们其属于一组数据的可能性 ?(?)。

模型?(?) 为我们其属于一组数据的可能性,通过?(?) < 检测非正常用户。

将应用高斯分布开发异常检测算法。

对于给定的数据集 ?(1),?(2),...,?(?),我们要针对每一个特征计算 ? 和 ?2 的估计值。

一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 ?(?):

我们选择一个,将?(?) = 作为我们的判定边界,当?(?) > 时预测数据为正常数据, 否则为异常。

例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数 据: 6000 台正常引擎的数据作为训练集 2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集 2000 台正常引擎和 10 台异常引擎的数据作为测试集 具体的评价方法如下:

  1. 根据测试集数据,我们估计特征的平均值和方差并构建?(?)函数
  2. 对交叉检验集,我们尝试使用不同的值作为阀值,并预测数据是否异常,根据 F1 值 或者查准率与查全率的比例来选择
  3. 选出 后,针对测试集进行预测,计算异常检验系统的?1值,或者查准率与查全率 之比。

异常检测与监督学习对比

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-06-24 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档