专栏首页机器学习AI算法工程基于高斯分布和OneClassSVM的异常点检测

基于高斯分布和OneClassSVM的异常点检测

大多数数据挖掘或数据工作中,异常点都会在数据的预处理过程中被认为是“噪音”而剔除,以避免其对总体数据评估和分析挖掘的影响。但某些情况下,如果数据工作的目标就是围绕异常点,那么这些异常点会成为数据工作的焦点。 数据集中的异常数据通常被成为异常点、离群点或孤立点等,典型特征是这些数据的特征或规则与大多数数据不一致,呈现出“异常”的特点,而检测这些数据的方法被称为异常检测。 “噪音”的出现有多种原因,例如业务操作的影响(典型案例如网站广告费用增加10倍,导致流量激增)、数据采集问题(典型案例如数据缺失、不全、溢出、格式匹配等问题)、数据同步问题(异构数据库同步过程中的丢失、连接错误等导致的数据异常),而对离群点进行挖掘分析之前,需要从中区分出真正的“离群数据”,而非“垃圾数据”。

基于高斯分布的异常点检测

OneClassSVM算法原理:

根据对已有支持向量机的理解,算法并非对已有标签的数据进行分类判别,而是通过回答:yes or no的方式去根据支持向量域描述(support vector domaindescription SVDD),将样本数据训练出一个最小的超球面(大于3维特征),其中在二维中是一个曲线,将数据全部包起来,即将异常点排除。Sklearn包中给出的demo实验结果如图:可以看出在不同的数据分布下会有一些不一样的误差,其中调整参数中有一个比较重要的nu,表示异常点比例,默认值为0.5

本文分享自微信公众号 - 机器学习AI算法工程(datayx)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 自研测试框架ktest介绍(适用于UI和API)

    在自动化测试的过程中,测试框架是我们绕不过去的一个工具,无论你是不需要写代码直接改动数据生成脚本,还是你需要检查测试结果甚至持续集成,测试框架都在发挥它的作用。...

    测试开发社区
  • 1042 字符统计 (20 分)

    输入在一行中给出一个长度不超过 1000 的字符串。字符串由 ASCII 码表中任意可见字符及空格组成,至少包含 1 个英文字母,以回车结束(回车不算在内)。

    可爱见见
  • qrcode 创建二维码

    二维码又称二维条码,常见的二维码为QR Code,QR全称Quick Response,是一个近几年来移动设备上超流行的一种编码方式,它比传统的Bar Code...

    用户6021899
  • 聊聊nacos的RaftPeerSet

    nacos-1.1.3/naming/src/main/java/com/alibaba/nacos/naming/consistency/persistent...

    codecraft
  • 利用Python进行数据分析(6) NumPy基础: 矢量计算

    NumPy提供的通用函数(既ufunc函数)是一种对ndarray中的数据进行元素级别运算的函数。例如,square函数计算各元素的平方,rint函数将各元素四...

    公众号---志学Python
  • Variational Auto-Encoders

    Variational Auto-Encoders又称为变分自编码器,要想学习它,首先需要弄清楚Autoencoder自编码器到底是个什么东西。我从MIT 6....

    可爱见见
  • 1043 输出PATest (20 分)

    给定一个长度不超过 104 的、仅由英文字母构成的字符串。请将字符重新调整顺序,按 PATestPATest.... 这样的顺序输出,并忽略其它字符。当然,六种...

    可爱见见
  • 重启电脑继续运行MATLAB程序

    因为实验室断电问题,或者其他原因,程序运行会被打断。这里提供一个matlab可以在中断后,重启,利用之前已有的结果继续优化过程

    万木逢春
  • c语言编程常见错误集锦 【上】

    编译程序会出错。C语言区分大小写。习惯上,符号常量名用大写,变量名用小写表示,以增加可读性。

    编程范 源代码公司
  • PyTorch Tricks 集锦

    设置当前使用的GPU设备仅为0号设备,设备名称为 /gpu:0: os.environ["CUDA_VISIBLE_DEVICES"] = "0"

    Datawhale

扫码关注云+社区

领取腾讯云代金券