前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >建模前需要面对的问题

建模前需要面对的问题

作者头像
许卉
发布2019-07-15 17:04:27
4960
发布2019-07-15 17:04:27
举报
文章被收录于专栏:Data AnalystData Analyst

统计更加在乎的是模型应用的完善,即数据必须要符合模型的假定。任何一个模型都有假定。数据挖掘中,如决策树和神经网络做的时候很少会提到假定,实际上他们的假定和回归差不多。很多时候,我们用R或者SAS建立一个决策树会发现效果不好,效果不好的原因就是你的数据不符合假定。决策树这种模型其实是没有底蕴的,即没有体系帮忙进行检验,所以这种模型在建模之前一定要对数据进行预处理,让数据去符合假定。如果想建好一个模型,在建模之前需要面对下面这些点:

1 模型的可解释性:建出的模型的关系必须是和实际业务有联系的,如果你的模型的可解释性关系是比较荒谬、不符合常识的,那么即使模型在技术层面非常好也是无用的

2 模型和技术的假定一定要自己清楚

3 模型能否抵御维度诅咒:回归要求自变量间不能相关,维度越高越容易相关,这就是维度诅咒,不光回归需要这个,决策树和神经网络也需要,建模时模型变数比较大就是这个原因

4 模型能否稳健的应对异常值

5 定性数据问题如何应付

6 缺失值是否需要提前处理:例如回归是需要补缺的,但是决策树不需要补缺,因为决策树不怕缺失值,在决策树看来缺失值就是一个普通的值

7 计算的复杂性:其实不用被各种很炫的模型吓住,其实商业数据分析中使用最多的模型就是回归,这里的回归不是普通的回归,是逻辑回归,将这一个模型搞明白,基本的工作就会平趟了,其他的算法会一点就可以了,因为其他的算法都不太稳健,稳健性最好的就是回归

8 计算的复杂性:统计软件的特点就是计算过程是高度隐藏,计算过程不可见就会造成我们的疑问,这个软件算的对不对呢,其实对不对是取决于计算过程中的误差的,当用统计软件建模的时候,涉及到的误差有四种:

a 测量误差:第一种误差,统计是理性测感性的过程,但是理性测感性有一个麻烦,例如去医院看病,描述身体难受程度的时候不好衡量,这样就会衍生出疼痛等级的概念。这里涉及到一个很有趣的指数-恋爱指数,是用来衡量天气好坏程度的综合指标

b 模型误差

c 计算机的舍入误差:这个是由算法控制的

d 截断误差:计算是有位长限制的,一个统计软件做的好不好是要去衡量其对截断误差的控制程度的

所以统计软件做的对不对是需要经过认证的,目前数据分析领域中完全过了认证的软件只有SAS,因其商业软件的性质,有人负责。R基础包进过了认证,大部分的延伸包没有经过认证。PYTHON2.0经过了认证,PYTHON3.0版本没有经过认证。SPSS也没有经过认证,如果用SAS和SPSS一起跑一个典型相关分析,结果是不一样的,所以建模时需要人为去控制计算层面的复杂性。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档