结构化数据转换方式之一:box-cox转换

之前在《笔记︱信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)》中提到过WOE转换,WOE转换=分箱法=Logit值,与等深、等宽不同是根据被解释变量来重新定义一个WOE值

**笔者将其定位于对自变量的数据转换。 现在来看看对于因变量的数据转换:BOX-COX转换。**

内容主要参考交大的课件:BoxCox-变换方法及其实现运用.pptx

优势:

  • 线性回归模型满足线性性、独立性、方差齐性以及正态性的同时,又不丢失信息,此种变换称之为Box—Cox变换。
  • 误差与y相关,不服从正态分布,于是给线性回归的最小二乘估计系数的结果带来误差
  • 使用Box-Cox变换族一般都可以保证将数据进行成功的正态变换,但在二分变量或较少水平的等级变量的情况下,不能成功进行转换,此时,我们可以考虑使用广义线性模型,如LOGUSTICS模型、Johnson转换等。
  • Box-Cox变换后,残差可以更好的满足正态性、独立性等假设前提,降低了伪回归的概率

常规的经济学转换方式:

log,对数转换,是使用最多的(数据必须大于0) 还有: 平方根转换 倒数转换 平方根后取倒数 平方根后再取反正弦 幂转换

Box-Cox变换的正态变换:

数据不比大于>0

没有Box-Cox变换的回归:

Box-Cox变换之后的回归:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与理论

【Face recognition】人脸识别实战

图片发自简书App 深度神经网络一般使用CNN,而CNN的改进又有Resnet残差网络,引入shortcut connection,以避免梯度弥散和爆炸,当前层...

3477
来自专栏贾志刚-OpenCV学堂

二值化算法OTSU源码解析

概述: 本文中小编将会跟大家分享一下OpenCV3.1.0中图像二值化算法OTSU的基本原理与源代码解析,最终还通过几行代码演示了一下如何使用OTSU算法API...

3809
来自专栏量化投资与机器学习

深度学习Matlab工具箱代码注释之cnnapplygrads.m

%%========================================================================= %...

18510
来自专栏marsggbo

贝叶斯优化(Bayesian Optimization)深入理解

我们都知道神经网络训练是由许多超参数决定的,例如网络深度,学习率,卷积核大小等等。所以为了找到一个最好的超参数组合,最直观的的想法就是Grid Search,其...

1644
来自专栏计算机视觉

基于图的分割 Efficient Graph-Based Image Segmentation 论文详解

输入图片 不同参数下的分割结果 原图片 产生superpixel的方法 1. How to segment an image into regions?    ...

4218
来自专栏Bingo的深度学习杂货店

使用Keras实现生成式对抗网络GAN

生成式对抗网络(GAN)自2014年提出以来已经成为最受欢迎的生成模型。本文借鉴机器之心对 2014 GAN 论文的解读,在本机运行该Keras项目。 传送门:...

6184
来自专栏ml

深度学习之图像的数据增强

   在图像的深度学习中,为了丰富图像训练集,更好的提取图像特征,泛化模型(防止模型过拟合),一般都会对数据图像进行数据增强, 数据增强,常用的方式,就是旋转图...

7677
来自专栏WD学习记录

机器学习 学习笔记(14)k近邻学习

k近邻是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。通常...

743
来自专栏机器学习、深度学习

快速小目标检测--Feature-Fused SSD: Fast Detection for Small Objects

Feature-Fused SSD: Fast Detection for Small Objects 本文针对小目标检测问题,对 SSD 模型进行了一个小的改...

4848
来自专栏AILearning

【Scikit-Learn 中文文档】协方差估计 / 经验协方差 / 收敛协方差 / 稀疏逆协方差 / Robust 协方差估计 - 无监督学习 - 用户指南 | ApacheCN

2.6. 协方差估计 许多统计问题在某一时刻需要估计一个总体的协方差矩阵,这可以看作是对数据集散点图形状的估计。 大多数情况下,基于样本的估计(基于其...

3425

扫码关注云+社区