应用:数据预处理-异常值处理

检测异常值一定程度上也可以叫做离群点识别,常规有以下几种识别方法:

1.统计检验(假设检验)

举个例子:以下一组用户用车月花费:100,110,90,80,200,120,115,月花费的均值在116左右,标准差在39左右,理论上用户的分布应该在116±2x39,所以200是离群点

当数据和检验类型(t、卡方等)已知的情况下,通过统计方法得出的结果非常可靠,但通常都是单个变量检验,工程实践中重复次数较多

2.距离检验(基于不同业务下,选择不同距离定义)

常规步骤:

1.kmeans寻找k个中心点

2.计算每个点到k个中心点的距离

3.取k个点中min值,不妨记为km

4.倒序排列剔除前N个,即为所求

当数据是连续型变量时计算快速,效果优秀,但是当数据分布为凹分布时或者存在分类或者名义变量时需要预处理,比较麻烦

3.密度检验

常规步骤:

1.判断每个点是不是核心点(满足最少密度点)

2.核心点之间是否密度可达(算是所有相互包含的密度点)

3.合并密度点

4.repeat

5.寻找剩余点即为所求

换句话说,思路就是定一个距离半径,定最少有多少个点,然后把可以到达的点都连起来,判定为同类。但是高维度表现差,密度分布不均表现差

4.特征检验

这个只是在书上读过,只能讲一个大概,如果有人很熟悉欢迎指教。

举个例子,每个人出行数据之间是有相关性的,比如你的出行距离越长,理论上你的支出也应该更高。存在用户出行公里数及价格如下,A(100,350),B(150,470),C(200,605),D(80,400),在其他条件一致的情况下,D用户的出行数据是极其不符合用户的特征属性的,所以可以看作离群点,其实这种方法也可以看作是模型检验吧(做一个能够拟合大部分数据的模型,然后提出残差过高的点)。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏从流域到海域

A Gentle Introduction to Applied Machine Learning as a Search Problem (译文)

A Gentle Introduction to Applied Machine Learning as a Search Problem 浅谈应用型机器学习作...

2686
来自专栏AI科技大本营的专栏

八大深度学习最佳实践

翻译 | AI科技大本营 参与 | 刘畅 [AI 科技大本营导读]2017年,许多的人工智能算法得到了实践和应用。名博Hack Noon作者 Brian Muh...

35812
来自专栏IT派

如何使用深度学习去除人物图像背景

作者:Gidi Shperber 参与:Nurhachu 、黄小天 近日,Medium 上出现了一篇题为《Background removal with dee...

4984
来自专栏人工智能

机器学习:算法及工具

算法及工具 ? 说明 编程语言:Python 机器环境:Windows 参考书籍:《Python机器学习实践指南》《机器学习实战》 为什么使用Python 1....

2166
来自专栏从流域到海域

浅谈应用型机器学习作为一种搜索问题

原文地址:https://machinelearningmastery.com/applied-machine-learning-as-a-search-pro...

29110
来自专栏IT派

机器学习新手常犯的6大错误

在刚入门的时候,均方误差作为损失函数是很好的默认选择。但是当需要处理现实问题的时候,这种未经专门设计的损失函数很少能给出最优解。

1070
来自专栏磐创AI技术团队的专栏

十大预训练模型,助力入门深度学习(第1部分 - 计算机视觉)

对于希望运用某个现有框架来解决自己的任务的人来说,预训练模型可以帮你快速实现这一点。通常来说,由于时间限制或硬件水平限制大家往往并不会从头开始构建并训练模型,这...

1393
来自专栏机器之心

教程 | 如何使用深度学习去除人物图像背景

选自Medium 作者:Gidi Shperber 机器之心编译 参与:Nurhachu 、黄小天 近日,Medium 上出现了一篇题为《Background ...

3446
来自专栏机器之心

你的英语不行!微软亚研自动语法纠错系统达到人类水平

用于语法纠错(GEC)的序列到序列(seq2seq)模型(Cho et al., 2014; Sutskever et al., 2014)近年来吸引了越来越多...

1301
来自专栏ATYUN订阅号

YOLO—实时对象检测的新视角

近几年,在深入学习的帮助下, 目标检测领域取得了巨大的进步。对象检测是标识图像中的对象并在其周围绘制边界框的任务, 也就是定位它们。在计算机视觉由于其众多的应用...

3545

扫码关注云+社区

领取腾讯云代金券