结构化数据转换方式之一:box-cox转换

之前在《笔记︱信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)》中提到过WOE转换,WOE转换=分箱法=Logit值,与等深、等宽不同是根据被解释变量来重新定义一个WOE值

**笔者将其定位于对自变量的数据转换。 现在来看看对于因变量的数据转换:BOX-COX转换。**

内容主要参考交大的课件:BoxCox-变换方法及其实现运用.pptx

优势:

  • 线性回归模型满足线性性、独立性、方差齐性以及正态性的同时,又不丢失信息,此种变换称之为Box—Cox变换。
  • 误差与y相关,不服从正态分布,于是给线性回归的最小二乘估计系数的结果带来误差
  • 使用Box-Cox变换族一般都可以保证将数据进行成功的正态变换,但在二分变量或较少水平的等级变量的情况下,不能成功进行转换,此时,我们可以考虑使用广义线性模型,如LOGUSTICS模型、Johnson转换等。
  • Box-Cox变换后,残差可以更好的满足正态性、独立性等假设前提,降低了伪回归的概率

常规的经济学转换方式:

log,对数转换,是使用最多的(数据必须大于0) 还有: 平方根转换 倒数转换 平方根后取倒数 平方根后再取反正弦 幂转换

Box-Cox变换的正态变换:

数据不比大于>0

没有Box-Cox变换的回归:

Box-Cox变换之后的回归:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop数据仓库

HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树

一、分类方法简介 1. 分类的概念         数据挖掘中分类的目的是学会一个分类函数或分类模型(也常常被称作分类器),该模型能把数据库中的数据项映射到给定...

28410
来自专栏海天一树

决策树

决策树是一种特殊的树形结构,一般由节点和有向边组成。其中,节点表示特征、属性或者一个类。而有向边包含有判断条件。如图所示,决策树从根节点开始延伸,经过不同的判断...

1092
来自专栏小小挖掘机

听说GAN很高大上,其实就这么简单

本文使用的tensorflow版本:1.4 tensorflow安装:pip install tensorflow 1、先来目睹一下效果吧 这篇文章讲解了如何使...

4624
来自专栏大数据文摘

没有完美的数据插补法,只有最适合的

数据缺失是数据科学家在处理数据时经常遇到的问题,本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法,但总有一款更适合当下情况。

635
来自专栏机器学习算法全栈工程师

数据挖掘中的数据清洗方法大全

作者:章华燕 编辑:黄俊嘉 在数据挖掘领域,经常会遇到的情况是挖掘出来的特征数据存在各种异常情况,如数据缺失 、数据值异常 等。对于这些情况,如果不加以处理,那...

3085
来自专栏tkokof 的技术,小趣及杂念

对于"矩阵连乘问题"的一点想法

在算法设计的学习中,每到“动态规划”一节,一般都会涉及到“矩阵连乘”问题(例如《Algorithms》,中文译名《算法概论》),可想而知该题的经典程度 :)

683
来自专栏Pulsar-V

OpenCV图像哈希计算及汉明距离的计算

OpenCV均值哈希与感知哈希计算,比对图像相似度,当计算出来的汉明距离越大,图像的相似度越小,汉明距离越小,图像的相似度越大,这种没有基于特征点的图像比对用在...

3234
来自专栏AI科技大本营的专栏

手把手教你自制编程AI:训练2小时,RNN就能写自己的代码

我们都知道,神经网络下围棋能赢柯洁、读X光照片好过医生、就连文本翻译上也快超过人类了……其实在写代码方面,神经网络也丝毫不落下风……用Linux源代码训练2小时...

3687
来自专栏素质云笔记

python︱sklearn一些小技巧的记录(pipeline...)

sklearn里面包含内容太多,所以一些实用小技巧还是挺好用的。 1、LabelEncoder 简单来说 LabelEncoder 是对不连续的数字或者文本进行...

4718
来自专栏数值分析与有限元编程

广义雅可比方法

标准雅可比方法只能求解标准特征值问题。对于广义特征值问题需要采用广义雅可比方法求解。 前面已提到标准Jacobi方法的理论依据是对于实对称阵 A,必有正交阵 ...

2805

扫码关注云+社区