前言
数据预处理时,异常值的存在可能对最终建立的模型的精度和泛化能力有较大的影响。检测异常值的方式有很多,最基本的两种方法为 z 分数法 和 上下截断点法。
本文针对这两种方法,构造自写库,最终实现函数的快捷调用,在很大程度上提高了数据预处理的效率。
需求
现有一份含北京部分地区房屋信息的数据,需要去除房价异常的行,以便后续的精确建模。(需求还可改为 “去除面积异常的行” 等,根据实际情况调整即可)
效果实现
一行代码快速绘图查看房价分布情况,具体实现过程见文末链接
以某列作为基准检测时,返回的异常值是包含该列在内的整行完整的数据。