EViews、Stata、回归分析……10月论坛答疑精选!

来自经管之家答疑频道

每个月,我们团队会特别邀请专家和版主,作为当月的特邀嘉宾,结合各自的领域,有针对性的进行答疑,并在当月答疑结束以后,对精彩的答疑进行梳理和汇总,我们从每位特邀嘉宾的答疑中,精选出最有代表性的问答,小编从中挑选出了部分与统计和数据分析相关的问题,供大家学习。

想提问的同学请继续关注经管之家答疑版块,说不定你的问题也能上榜哦~

出场嘉宾一:夏目贵志

论坛个人主页:http://bbs.pinggu.org/?3282174

问题1:如何做logit模型中自变量的边际影响, 在EVIEWS中怎么操作,或者给出具体的公式。

提问者:luoyuhui888

精彩回答:

logit模型和简单的线性模型不同,自变量的边际效应并不是简单等于其系数。

x_j对于y的边际效应一般来讲计算方法如下:

EViews本身并没有直接求边际效应的程序。不过,可以通过EViews的预测功能求得边际效应。如果简单的样本内预测值是XB,那么@dlogistic(-xb)乘以x的系数就是边际效应了。

下面是一个实例。

首先,估计我们需要的logit模型。被解释变量是foreign,解释变量是price和mpg。我们一会儿来求mpg的边际效应。

模型估计好之后,记下mpg的系数。

然后,我们来进行样本内的预测。记得要预测index,不是probability。

预测之后就可以生成边际效应了。

这个序列的均值就是我们要求的平均边际效应(average marginal effect)。

我们可以在Stata里进行同样的回归并求mpg的边际效应作为验算。命令和结果如下:

问题2:这图像怎么看预测?关键是自己做的不好啊!

提问者:buleprint

精彩回答:

EViews输出的预测图表是报告预测的典型方式。图中的蓝线是预测值。高于蓝线的那个红线表示预测值+2xS.E.,低于蓝线的那个红线表示预测值+2xS.E.。 取决于生成预测值的模型,并不是所有的预测值都服从常见的分布。所以对于红线表示的结果不要过分依赖。

右边的表格提供标准的衡量预测准确度的统计值。从第五行开始,之后的四行是四个不同的统计值,RMSE, MAE,MAPE,和Theil’s U值。如果a表示真实值,p表示预测值,t=1,...,T是预测样本的区间,

头三个个统计量大部分时候提供相同的信息,所以主要看一个一般就够了。最后一个统计量,Theil's U值只能取0到1之间的值。如果U=0,那么说明所有的预测完美准确。如果U=1,那么说明预测值非常不准确。   

表格的最后三行是U值分解之后的结果。U值可以被分解成三个部分,Bias的部分表示预测值是否有系统性的偏差。Variance的部分表示预测和实际值波动程度的差别。如果这个部分很大,则表示实际值的波动比预测值大很多。最后一部分,covariance,表示非系统系的预测误差。这个部分应该是三个部分里最大的。这三个部分相加等于1。

问题3:用stata把long变成wide面板,时间是2007年至2010年,但是有的变量(aa)在某些年份没有数据,所以这个命令没有办法执行,请问怎么补齐缺失年份的数据。   

比如:变量1,只有2010年的数据,我想将2007年至2009年的数据补齐为0,命令式什么?因为是菜鸟,所以怎么百度都不知道,还希望好心人指教。

提问者:/mg_終結

精彩回答:

tsfill只是生成缺失值,并不生成0.   

tsfill is used to fill in gaps in time-series data and gaps in panel data with new observations, which contain missing values.   

如果你要把缺失的部分变成0还是需要replace x=0 if x==.命令。

问题4:求问大家,我们一般处理内生性问题就是找个iv,然后用ivreg里的2sls(截面数据)回归就可以了。今天看到一篇paper用Heckman selection model的,查了一下估计方法略有不同。不明白这两种方法的适用范围有什么不同。

提问者:固执

精彩回答:

这个问题每一段时间就会出现一次。这里有详细的解答:

http://www.stata.com/support/faq ... ple-selection-bias/

这个问题之所以比较不好理解,是因为同一个问题,比如是否加入工会对工资的影响,既可以被视为内生性问题,也可以被视为样本选择的问题。具体用什么方法处理取决于模型背后的经济假定。

如果我们认为是否加入工会仅对工资回归的截距产生影响,从而在等式右边加入是否加入工会的0/1变量,并使用所有的观测值(既包括加入工会的工人也包括没有加入工会的工人),那么,因为所有的样本都被使用了,所以并不存在样本选择的问题。因为是否加入工会是内生的,所以需要工具变量。这个情况下使用2SLS。

如果我们认为是否加入工会不仅对截距产生影响,而且对斜率产生影响(例如,额外的每年工作经验对工资的影响根据工人是否加入公会而有不同),那我们就需要考虑样本选择的问题了。这时,我们不能使用整个样本进行估计,而只能分开估计工会内和工会外的样本。这时,因为只有部分(非随机选择的)样本被使用,我们需要相应的使用heckman模型。在这个情况下,是否加入工会的0/1变量并不出现在等式右边。

问题5:应变量放到交互项中能说明什么问题

我把自己的问题转化为一个简单的形式。设自变量X,应变量Y。

reg y x,X的系数为负,但不显著,表示X对Y是负影响的,但是不显著。

同时,我认为反过来,Y对X是存在影响。   

那么,我产生一个交互项 mixe=x*y, 这里x和y都做了中心化处理,避免了多重共线性。得到一个新的回归方程:reg y x mixed,那么请问,这样的方程设置有统计意义吗?得到的X的系数由负向不显著,变为显著;mixed的系数为负向显著。   

我是否可以得到一个推论X对Y 的影响负向显著,而其中一部分的负向影响是由Y引起的?谢谢,请大牛指教,我之前看到过有这么用的文献,但是找不到相关资料支持了。

提问者:swdlxx

精彩回答:

这里需要考虑到的首先是正确的模型只有一个。如果模型一是正确的,那么没什么可说的,不用继续考虑模型二了。如果第二的模型是正确的。那么mixed项在第一个模型里就变成了omitted variable,导致x和error term相关。这个情况下第一个模型是不可取的。

假定第二个模型正确,那么把mixed项移动到式子左边,提取y,然后式子两边同时除以左边y的系数(一个包含x的表达式),则可以在回归时等式右边只出现x。但是如果第二个模型本身没有异方差性,error term除以包含x的表达式之后会造成异方差性,所以需要使用robust S.E.。

在不清楚究竟是模型一正确还是模型二正确的话,可以两个模型都估计,然后使用标准的model selection方法。也可以直接比较两个模型用于预测时的准确性。

实际应用当中,需要综合考虑你的统计模型背后的经济模型,也需要考虑除了估计值以外的因素,比如样本量大小等等。

问题6:我有10个控制变量需要加到回归方程里面,可以加一个,也可以加2个,甚至全部加,我想者10个变量的每一种排列组合方式都运算一次回归。请问stata可以自动进行么,还是必须每次手动输入变量

提问者:allen412

精彩回答:

你描述的这个方法正式的名称是stepwise estimation。Stata里的stepwise命令就是用来做这个的。以auto数据为例,下列命令可以用来得到解释mpg的”最好的“模型:

stepwise, pr(.2): regress mpg weight displ gear turn headroom foreign price

当然,这个命令的具体用法得要仔细阅读帮助文件help stepwise才能全部掌握。

注意:stepwise并不是对所有的排列组合都进行一次回归。如果确定是需要严格意义上对所有的排列组合都进行一次回归的话,需要自己编写程序,或者使用EViews的STEPLS方法,并使用Combinatorial作为selection method。

问题7:没有人知道相关文献,关于黑夜 的时间划分啊?我想晚上从21点到次日4点,各位觉得这个分法怎么样?不知道有没人文献这样做的,烦请这方面的专业给点意见哈!

提问者:jiangbeilu

精彩回答:

白天和黑夜的定义在不同的领域略有不同。一般来说,如果本领域没有既成的传统,可以使用天文上的定义(或略加修改),即:日出时间-x小时之后到日落时间+x小时之后算作白天,其他时间算作晚上。

这个定义的问题在于,日出和日落时间取决于地点。不同地点时间不同。而且这个时间每天都会变化。如果需要用这个时间在统计分析当中,则需要取得相应的数据。

这个日出和日落时间的数据可以在网上查到。一个比较好用的网站是http://www.sunrisesunset.com

更具体一点说,日出日落时间常用的还有三个不同的版本。这里有详细的解释。三个版本时间实际上差不多,可以根据研究需要使用合适的时间。http://www.timeanddate.com/astro ... types-twilight.html">

问题8:请问一些关于使用滞后解释变量来解决内生性的问题

1.论文中常见的说是把解释变量X滞后一期,被解释变量Y不变来解决内生性的做法,是指把滞后一期的X作为代理变量,还是作为工具变量呢?   

2.另外,把主要解释变量滞后一期,与把所有解释变量滞后一期,这两种做法哪种可靠且合理呢,如果有区别,区别是什么呢?  

3.滞后解释变量的做法是解决哪一种内生性呢?我看到一些文献是说解决逆向因果,那么这种方法能够缓解遗漏变量的问题吗?  4.有没有一些关于这类的文献可以推荐看看?

提问者:wangwenjin0829

精彩回答:

关于第一个问题,大概应该是这样吧:如果y_t和x_t都取决于观测不到的变量z_t,regress y x里x就有内生性的问题。但是如果z_t和z_{t-1}不相关,那么x_{t-1}就不是内生的了。所以才有regress y l.x这样的做法。在这个假定下,应该取哪些变量的滞后值就很明确了。不过实践当中,时间序列的话一般所有的变量都回取滞后值。比如本期的消费取决于上期的收入等。

追问:您的意思是,想要用这种做法解决遗漏变量问题必须满足z_t与z_t-1不相关才可以,那么现实中这种情况可能比较少见,所以说即使这么做了,顶多是缓解一下遗漏变量的内生性,而不能够完全解决,是这样子吗?

追答:这是一种。另一种就是说,比如x y都是AR(1),e_{tx}和e_{ty}相关。但是两个e和自己的滞后项都不相关。

内生性是信仰问题。你只能做到一定程度。自己满意了就可以了。你管不着别人怎么想。对吧?实践当中,你按照文献做了,就好了,就算还是内生的,也不是就你一个人有这个问题。

追问:您好,请问您有一些以被解释变量不变,解释变量滞后一期来解决内生性问题的文章吗,可否分享一下?

追答:现在这种事情很普遍的。用了也不会特意说一声。你要是要几十年以前的文章当然另当别论。

问题9:tata 描述性统计问题

在stata的面板数据中,数据年份为1999-2005,只要在这一时间段内有一年的企业新产品产值大于0,则视为有新产品产值的企业。怎么计算这样的有新产品产值的企业数呢?

提问者:clayone

精彩回答:

bys company_id: egen tmp = count(year) if new_product>0

by company_id: egen count = mean(tmp)

如果count大于一那就是有的

出场嘉宾二:oliyiyi

论坛个人主页:http://bbs.pinggu.org/?301721

问题1:在学习统计学的课程中,很多统计学的假设检验都是依赖于正态假设检验,为什么在很多论文使用这些统计方法的时候,没有看到正态性的检验,是不是他们的文章有问题?

精彩回答:

这个问题要从两方面入手:

根据中心极限定理,大多数情况下,只要样本容量较大,估计量通常很好的近似于正态分布。如果此时的box-plot图的形状正常,就无需正态检验了。

当样本量不大的时候,通常不采用正态检验,一个原因是任何检验在样本量不大时,都很难拒绝原假设,(这个结论很容易验证,比如,要检验,1,2,3 是否服从正态分布,p值一定很大,同样,再去检验 1,2,3,4,5也是一样)

需要注意的是,在发表论文时,一般说来,虽无需正态检验,但应该提供qq图或箱线图来说明样本情况。

问题2: 现在很多调查中心的调查数据已经进行了2期追踪调查,以后期待更多的追踪时期。尽管如此,2期追踪数据相比于1期横截面数据在分析中有什么优势?

精彩回答:

两期追踪数据是简单的面板数据,也能够考察非观测效应的影响。通常非观测效应和模型中的随时间变化的变量相关,此时往往考虑两期数据的差分进行估计,是有效的控制非观测效应的方法。

两期追踪数据对政策分析、项目评估来说也是很有用的。近些年来流行的田野实验方法,两期追踪数据进行分析则非常不错。

问题3: 如何通过预调查对调查问卷的条目进行修正?

精彩回答:

在问卷调查中,往往需要预调查对问卷的条目修正,这里除了专业考虑的角度之外想补充几条:

1 把那些没有变异的条目删除或修改:如果预调查显示,某个条目的回答都是某一个选项,那么这个条目应该被剔除掉或者在细分更多的选项。

2 某些条目的选项应该合并:如果预调查显示某个条目的回答都集中在前三个,那么后面几个选项应该跟前面合并或者删除。

条目的设置一定遵循有所变异的原则,当然所有的修正都应该结合专业以及问卷调查的目的。

问题4:如何理解假设检验的错误?

精彩回答:

第一,假设检验是带有概率性质的反证法过程。在要检验的假设(通常称为原假设)正确的前提下,构造小概率事件,通过抽样如果发现小概率事件发生了,则拒绝原假设。从过程来看,拒绝原假设本身就有一定的主观性,小概率事件不是不可能发生的事件,因此而拒绝原假设自然会犯错误,这个错误也就是假设检验的显著性水平。

第二,借论坛网友的回答说明:“假设检验中会犯两种类型的错误:第一类错误是原假设是真实的,却错误地拒绝了真实的原假设,叫作弃真错误,犯这类错误的概率用显著性水平α表示;第二类错误是原假设是不真实的,却接受不真实的原假设,叫做纳伪错误,犯这类错误的概率用β表示。”

第三,第一类错误和第二类错误往往此消彼长。借网友回答补充说明:“在样本容量(n)不变的前提下,两者不能同时变小,减小α必然导致β增大;反之,减小β必然导致α增大,两者呈反向变动关系。要同时减少α和β的唯一方法是增加样本含量”事实上,在可以选择不同检验方法的情况下,是可以控制第一类错误,而选择使得第二类错误尽可能小的检验方法的。

假设检验原则:控制第一类错误,尽量减少第二类错误。

问题5.:如何理解统计学中小样本精确分布和大样本近似分布?

精彩回答:

这个问题论坛网友给出了很好的回答。引用如下:

“因为中心极限定理和大数定律可以让我们相信在大样本的情况下,样本越大越接近正态分布。而在小样本中,因为样本量小,更容易出现样本偏差,此时对样本的精度要求比较高,可以直接进行正态性检验,若不符合正态分布,则可以考虑用其他分布拟合或进行数据变化使之符合正态分布或直接采用非参数的统计方法。”

补充说明:很多教材或者专业人士对小样本情况下就说小样本精确分布是不太恰当的,样本容量小的时候,只有样本来自某确定分布的总体的时候才能确定统计量的精确分布,如果不能确定总体分布,则谈不上小样本精确分布。

问题6:分位数回归的含义

精彩回答:

我对这个问题跟前面网友的观点有些不同:

简单的来说,可以从中位数回归开始理解:y的中位数m可以被视为E|y-m|的最小化值。因此,通过最小化残差绝对值总和得到中位数回归系数。

中位数回归估计量可一般化为第p分位数回归的估计量。单变量样本y1, y2,...,yn分布的第p分位数就等于使得样本数据加权距离的总和最小化的q值,这里q值之下的数据点的权重为1-p,而在q值之上的数据点的权重为p。于是中位数回归相当于yi-yi^大于零的项权重为p,yi-yi^小于零的项权重为1-p,如此求得的|yi-yi^|的和最小的参数为第p分位数回归的估计量。

问题7: 回归分析如何确定变量之间的因果关系?

精彩回答

这里回答简单回归分析吧!

简单回归分析通常假定扰动项条件零均值E(u|x)=0(解释变量外生),其目的就是为了确定x对y的影响不受其他条件干扰。多元回归分析中明确提出从u中分离更多的相关因素,OLS的这个工具使得多元回归系数的含义具有排除控制的其他变量影响的特性,因此正确的回归模型设定下显著的回归系数通常被赋予因果关系的证据。当然,正确的模型设定也就是说模型中解释变量满足外生性要求。

对于多个内生性变量的系统来说,确定因果关系并不容易。复杂些的方法比如非递归有向循环图(DAG)、结构方程模型方法等。论坛网友也提到了时间序列数据中的Granger因果关系检验。

问题8: Cox比例危险模型可以用于何种数据分析?

精彩回答:

网友的回答已经比较好了“Cox比例模型属于半参数模型,一般用于生存分析,响应变量为第i个个体在t时刻的危险率函数,如果仅仅为了比较不同个体间的风险,只需要估计出解释变量风险比,不必给出基础危险率函数的具体形式。当然如果并不是为了比较不同个体,而是要估计该个体的危险率,还是要估计出基础危险率函数,这时也就变成全模型了~~Cox比例模型的参数比较容易解释~~”

个人在补充几点:

1 这个模型是20世纪最有名的统计模型之一。如今已经成了所有新药上市,其中统计检验的必备模型之一。其作者D. R. Cox 也因此奠定他在统计学界的地位。

2 应用非常广泛,只要因变量跟时间有关都可以考虑使用,癌症手术的评价(病人的存活期), 保险中寿险模型(人的寿命),非寿险模型(车或其他的寿命),甚至有人用这个模型来研究股价(涨到跌的时间)

问题9: 卡方检验能帮我们做什么?

精彩回答:

百度百科上的回答已经比较好了,这里再补充两个:

1 他本质上是一种拟合优度检验,学过数理统计的同学都知道可以使用这个检验来检查任意数据是否来自某种特定的分布,其实P-P图的原理(看样本分位数跟总体分位数是否一致)跟这个有些类似。

2 对定性数据的分析,都知道列联表是用来分析定性数据(可以检验比例是否相同,构成比是否相同等等)的,使用的方法就是卡方检验,虽然现在的GLM(广义线性模型)可以替代列联表方法,但这种方法在实际的使用中还是非常广泛的。   

需要注意的是:在高维列联表中,一般使用对数线性模型,就不再使用卡方检验了。

问题10:有人说:“统计就像比基尼,露出来的部分固然诱人,没露出来的才是致命的”,大家如何理解这句话?

精彩回答:

这是个公开的问题,只是让我联想另外关于统计的名言,马克·吐温:“世界上三种谎言,分别是谎言,该死的谎言和统计数字”。

出场嘉宾三:胖胖小龟宝

论坛个人主页:http://bbs.pinggu.org/?3296507

问题1:求大神给出R语言计算多项分布的概率的代码!

提问者:慎峰

精彩回答

若R中分布的函数名为func,则四类函数的调用格式为:

1)概率密度函数:dfunc(x, p1, p2, ...), x为数值向量;   

2)(累积)分布函数:pfunc(q, p1, p2, ...), q为数值向量;

3)分位数函数:qfunc(p, p1, p2, ...), p为由概率构成的向量  

4)随机数函数:rfunc(n, p1, p2, ...), n为生成数据的个数   

其中p1, p2,...是分布的参数值.上面的表格中有具体数值的是这些参数在空 缺时对应的缺省值。

问题2:请问spss中的成分矩阵和结构矩阵式怎么回事啊?

提问者:歌尽相思又晨风  

精彩回答:

不知道你说的是不是载荷矩阵?

一般这个矩阵是用来看各截面在不同的成分中更偏向于哪一个成分。比如有三个成分,在同一行中载荷数分别为0.5 0.7 0.9,那么他一般就回归于第三类。   

至于这个矩阵是如何得出的 还要看当时选择提取成分时使用的是什么方法,这个就很繁杂了,建议可以看下多元统计的教材。(不过我印象中本科阶段的对此不会做太多叙述)

问题3:只知道均值标准差、样本量,怎么进行两两比较

提问者:岳西YH

精彩回答:

有了均值、标准差就可以进行变异系数的比较   

有了均值、标准差、样本量(样本量大的话)可以做t检验

样本小的话如果符合正态分布或t分布也可作T检验

问题4:相关关系与因果关系的比较

提问者:带我回家

精彩回答:

两个完全不同的关系

相关关系一般做线性相关分析,取值为[-1,1],不论截面还是时序都可做

因果关系目前流行的是格兰杰因果关系,适用于时序面板(长T),且这仅仅是统计意义上的因果关系。

问题5:怎么识别AR模型的阶

提问者:走在红毯那一天

精彩回答:

观察自相关系数:拖尾数即为AR阶数,截尾数即为MA阶数

观察偏相关系数:截尾数即为AR阶数,拖尾数即为MA阶数

这是从图形上看,最终还要依靠AIC来判断哪个最好

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2015-11-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与理论

最新姿态估计研究进展

最新姿态估计研究进展 自上而下:就是先检测包含人的框,即human proposal,然后对框子中的人进行姿态估计。一般RCNN(区域CNN就是这个思路) 自下...

9626
来自专栏华章科技

从1维到6维,一文读懂多维数据可视化策略

本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载

934
来自专栏机器之心

深度 | 使用高斯过程的因果推理:GP CaKe 的基本思路

我们最近开发出了一种用于时间序列数据中因果推理的全新方法 [Ambrogioni et al., 2017]。我们称之为「GP CaKe」,即具有因果核的高斯过...

741
来自专栏钱塘大数据

【干货】2018年深度学习必读的31篇论文,赶紧收藏!

Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文,包括架构/模型、生成模型、强化学习、SGD & 优化及理论等各个方面,有些论文名扬四...

3833
来自专栏机器学习之旅

基于Tensorflow实现FFMFFM理论代码实现论文结论总结

没错,这次登场的是FFM。各大比赛中的“种子”算法,中国台湾大学Yu-Chin Juan荣誉出品,美团技术团队背书,Michael Jahrer的论文的fiel...

1192
来自专栏量子位

Hinton领衔谷歌大脑新研究,拯救被认成步枪的乌龟

最近,深度学习之父Geoffrey Hinton带领的谷歌大脑团队,提出了一种防御对抗攻击的新方法。

1021
来自专栏媒矿工厂

HDR关键技术:光学、视觉与光电转换曲线

本系列的前作当中介绍了HDR技术的相关技术与标准,本文将从更基础的知识点出发,重点介绍HDR技术的两大关键基础-亮度与颜色中的前者。

1.4K3
来自专栏人工智能LeadAI

基于Tensorflow实现FFM

github:https://github.com/sladesha/deep_learning

2673
来自专栏人工智能头条

Top 50机器学习项目实战总结

4582
来自专栏机器之心

从1维到6维,一文读懂多维数据可视化策略

5698

扫码关注云+社区

领取腾讯云代金券