本周内容较多,故分为上下两篇文章。
假设我们生产了若干产品,现在通过两个特征来衡量产品是否合格,下面表示的是合格产品的分布图。
现在有两个新生产的产品,分布如下(绿色×)
上面我们构建的模型(即蓝色同心圆)能根据测试数据告诉我们其属于一组数据的可能性p(x).上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。 这种方法称为密度估计,表达如下:
\[if \quad p(x)≤ε,则为anomaly(异常)\] \[if \quad p(x)>ε,则为normal(正常)\]
略
还是以上面产品检测为例,我们先得到如下图左边的样品特征分布,然后根据分布图分别画出x1和x2的高斯分布图
下面的三维图表表示的是密度估计函数,z 轴为根据两个特征的值所估计 p(x)值:
我们选择一个 ε,将 p(x)=ε 作为我们的判定边界,当 p(x)>ε 时预测数据为正常数据,否则则为异常。
异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量 y 的值来告诉我 们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个 异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数 据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试 集。
例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数 据: 6000 台正常引擎的数据作为训练集 2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集 2000 台正常引擎和 10 台异常引擎的数据作为测试集
具体的评价方法如下:
异常检测和监督学习的确有几分相似,但是还是有区别的,整理如下:
异常检测 | 监督学习 |
---|---|
非常少量的正向类(异常数据 y=1),大量的负向类(y=0) | 同时有大量的正向类和负类 |
许多不同种类的异常,非常难。根据非常少量的正向类数据来训练算法。 | 有足够多的正向类实例,足够用于训练算法,未来遇到的正向类实例可能与训练集中的非常近似。 |
未来遇到的异常可能与已掌握的异常、非常的不同。 | |
例如:1. 欺诈行为检测2. 生产(例如飞机引擎)3. 检测数据中心的计算机运行状况 | 例如:1. 邮件过滤器2. 天气预报3. 肿瘤分类 |
异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够 工作,但是最好还是将数据转换成高斯分布,例如使用对数函数:x = log(x+c),其中 c 为非 负常数; 或者 x=xc ,c 为 0-1 之间的一个分数,等方法。
假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的 高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去 同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。 下图中是两个相关特征,洋红色的线(根据 ε 的不同其范围可大可小)是一般的高斯分 布模型获得的判定边界,很明显绿色的 X 所代表的数据点很可能是异常值,但是其 p(x)值却 仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界
\[p(x)=∏_{j=1}^{n}p(x_j;μ_j,σ^2_j)=∏_{j=1}^{n}\frac{1}{\sqrt{2π}σ_j}exp(-\frac{(x_j-μ_j)^2}{2σ_j^2})\] \[μ=\frac{1}{m}\sum_{i=1}^{m}x^{(i)} \]
\[p(x)=\frac{1}{(2π)^{\frac{n}{2}} |Σ|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-μ)^TΣ^{-1}(x-μ))\] \[Σ=\frac{1}{m}(X-μ)^T(X-μ)\]
μ和Σ对模型的影响
上图是 5 个不同的模型,从左往右依次分析:
通过使用多元高斯分布异常检测,可以更好的拟合数据,不再是画同心圆了,2333~~。