建模前需要面对的问题

许卉

发布于 2019-07-15 17:04:27

5190

发布于 2019-07-15 17:04:27

文章被收录于专栏：Data Analyst

统计更加在乎的是模型应用的完善，即数据必须要符合模型的假定。任何一个模型都有假定。数据挖掘中，如决策树和神经网络做的时候很少会提到假定，实际上他们的假定和回归差不多。很多时候，我们用R或者SAS建立一个决策树会发现效果不好，效果不好的原因就是你的数据不符合假定。决策树这种模型其实是没有底蕴的，即没有体系帮忙进行检验，所以这种模型在建模之前一定要对数据进行预处理，让数据去符合假定。如果想建好一个模型，在建模之前需要面对下面这些点：

1 模型的可解释性：建出的模型的关系必须是和实际业务有联系的，如果你的模型的可解释性关系是比较荒谬、不符合常识的，那么即使模型在技术层面非常好也是无用的

2 模型和技术的假定一定要自己清楚

3 模型能否抵御维度诅咒：回归要求自变量间不能相关，维度越高越容易相关，这就是维度诅咒，不光回归需要这个，决策树和神经网络也需要，建模时模型变数比较大就是这个原因

4 模型能否稳健的应对异常值

5 定性数据问题如何应付

6 缺失值是否需要提前处理：例如回归是需要补缺的，但是决策树不需要补缺，因为决策树不怕缺失值，在决策树看来缺失值就是一个普通的值

7 计算的复杂性：其实不用被各种很炫的模型吓住，其实商业数据分析中使用最多的模型就是回归，这里的回归不是普通的回归，是逻辑回归，将这一个模型搞明白，基本的工作就会平趟了，其他的算法会一点就可以了，因为其他的算法都不太稳健，稳健性最好的就是回归

8 计算的复杂性：统计软件的特点就是计算过程是高度隐藏，计算过程不可见就会造成我们的疑问，这个软件算的对不对呢，其实对不对是取决于计算过程中的误差的，当用统计软件建模的时候，涉及到的误差有四种:

a 测量误差：第一种误差，统计是理性测感性的过程，但是理性测感性有一个麻烦，例如去医院看病，描述身体难受程度的时候不好衡量，这样就会衍生出疼痛等级的概念。这里涉及到一个很有趣的指数-恋爱指数，是用来衡量天气好坏程度的综合指标

b 模型误差

c 计算机的舍入误差：这个是由算法控制的

d 截断误差：计算是有位长限制的，一个统计软件做的好不好是要去衡量其对截断误差的控制程度的

所以统计软件做的对不对是需要经过认证的，目前数据分析领域中完全过了认证的软件只有SAS，因其商业软件的性质，有人负责。R基础包进过了认证，大部分的延伸包没有经过认证。PYTHON2.0经过了认证，PYTHON3.0版本没有经过认证。SPSS也没有经过认证，如果用SAS和SPSS一起跑一个典型相关分析，结果是不一样的，所以建模时需要人为去控制计算层面的复杂性。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-02-11，如有侵权请联系 cloudcommunity@tencent.com 删除

决策树