首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

基于高斯分布和OneClassSVM的异常点检测

大多数数据挖掘或数据工作中,异常点都会在数据的预处理过程中被认为是“噪音”而剔除,以避免其对总体数据评估和分析挖掘的影响。但某些情况下,如果数据工作的目标就是围绕异常点,那么这些异常点会成为数据工作的焦点。 数据集中的异常数据通常被成为异常点、离群点或孤立点等,典型特征是这些数据的特征或规则与大多数数据不一致,呈现出“异常”的特点,而检测这些数据的方法被称为异常检测。 “噪音”的出现有多种原因,例如业务操作的影响(典型案例如网站广告费用增加10倍,导致流量激增)、数据采集问题(典型案例如数据缺失、不全、溢出、格式匹配等问题)、数据同步问题(异构数据库同步过程中的丢失、连接错误等导致的数据异常),而对离群点进行挖掘分析之前,需要从中区分出真正的“离群数据”,而非“垃圾数据”。

02

基于机器学习的Web日志异常检测实践

机器学习,众所周知,对于改善基于正则的流量检测的误报、无法应对未知攻击的现状将起到关键性的作用。本文旨在简述当前接触到的基于机器学习的web异常检测应用以及对应产生的一次实践的经验。 对于异常流量,其中一个较为有效的做法是建立白样本的模型,过滤后剩下的都是异常样本 这个方法也是比较符合逻辑以及事实的,因为正常流量总是极其相似的,而异常的流量却是各种不同。 再者,只收集白样本的确实比同时收集黑白样本来得容易,因为我们所获得的流量基本上都是正常的白样本流量,攻击样本流量所占比例是很小的,采用监督学习(即给黑白样本打标签,让机器学习模型识别是正常还是异常),采集成本过高,单分类模型只需要采集白样本,且允许一定量的误差样本存在,使得我们可以很容易地收集到训练样本。正如吴恩达在机器学习课上提到的——“一个模型的好坏往往不是取决于算法,而是很大程度上取决于数据”。 我们的目标是首先将异常访问从日志中剥离出来,标记为异常流量,然后后期目标再是对异常流量进行攻击分类统计。最后,我们的愿景是从攻击中溯源,检测出是否被成功入侵等等。 万事开头难。按照我们的初级目标,我们首先了解一下现在常见的各类异常检测模型,再来进行分析、选择。 笔者也是刚接触机器学习不久,旨在与大家交流心得体会,不正之处还请斧正,也算是实习三个月这方面的一次总结。

05

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券