学习
实践
活动
工具
TVP
写文章

STATA干货(一)

算是当个小总结吧……,有些命令真的特别特别好用

一.回归方面的命令

一.作出线性回归图并画出置信区间

1.作散点图并拟合曲线:

twoway (scatter y x )( lfit y x)

2.作出回归后,算估计值标准误和预测值标注误:

predict x, stdp ——均值的标准误(均值)

predict y, stdf ——预测值的标准误(单一)

3.在回归线上画出xb均值百分之95的置信区间(预测值置信区间同理)

gen d_min = xb - 1.96*x

gen d_max = xb + 1.96*x

twoway rareaxb_max xb_min year|| linexb year

二.逐步回归

sw reg y x1 x2 x3 x4,pr(0.05) 从整个模型开始逐渐后退

sw reg y x1 x2 x3 x4,pe(0.05)从零开始逐渐前进

三.回归诊断

1.查看方差膨胀因子vif (小于10才行)——检验自变量是否多重共线

reg y x1 x2 x3

estat vif

2.计算cook’D距离——剔除异常值

reg y x1 x2 x3

predict cookd,cooksd

drop if cookd > 4/n

3.查看标准化残差直方图——检验标准化残差是否服从正态分布

predict e,rstandard ————————生成标准化残差()

sum e

hist e,normal

查看标准化残差正态概率图

pnorm e

4.异方差诊断——自变量取不同值时残差相等

rvfplot,yline(0)

如果不满足均方差,可以用robust回归

reg y x1 x2 x3,robust

二.数据描述性的命令

tab type, sum(price)——查看每组的均价

ci meansvar1, by(type)——看各类里面均值的置信区间

ciobs means st.err ——查看置信区间

anova a b y x,cont(x) ——协方差分析(以x为协变量)

sum x,detail

三.针对数据格式和合并的操作

1.纵向合并数据(以a 和b两个文件为例)

use male, clear

append using female

save mydata1,replace

2.横向合并数据

use economy, clear

sort id

save economy, replace

use student, clear

sort id

merge id using economy

tab_merge(显示对接情况)

drop_merge

3.六列数据转换为一列

stack var1-var6,into(x) clear

drop _stack

4.行列互换

xpose,clear

四.对数据进行转换、分组和生成变量的操作

1.对年龄分组时剔除缺失值

gen agegrp1=(age>=65) if age

把大于等于65岁的设为1,小于等于的为0,同时剔除缺失值

2.四舍五入的操作

int()强行取整数

round()四舍五入

四舍五入到百分位,round(var,0.01)

3.通过某个变量字符串中是否含有某个字符,来生成一个为“1”或“0”的新变量

gen na1=strpos(a, "1")!=0

gen na2=strpos(a, "2")!=0

gen na3=strpos(a, “3")!=0

gen na4=strpos(a, "4")!=0

list

4.对变量进行截取

di word(“this is a dog”,4) ——显示第四个单词 dog

substr(make,1,3)——取变量 make 的前三个字符

5.切割年龄

egen agegr=cut(age),at(0,7,13,16)

6.各种小技巧

rsum(x y z)总和

rowsd(x y z)方差

rowmin(x y z)最小值

rowmax 最大值

mean(x) 列均值

median(x)中值

std(x)变异系数(标准差和平均数的比,排除量纲的影响)

diff(x y)若x和y相等,取0,若不等,取1

egen highrep78 = anyvalue(rep78), v(3/5) 若rep78不为3、4或5, 则为缺失值

7.将变量进行标准化

egen x1 = std(x)mean(0)std(1)

8.构建虚拟变量

tab type, gen(t)——生成对应的虚拟变量

五.因子分析

1.因子估计

factor x1 x2 x3 x4 x5 x6

寻找特征值>1的

2.查看是否适合做因子分析

estat kmo

0.9以上为非常好,0.8以上为好,0.7一般,0.6为差

3.生成碎石图

screeplot

取分界点之前的因子

5.画出载荷图

查看主因子中各变量的载荷

6.如果不好解释,就旋转(一般斜交)

rotate

6.计算各个个体的因子得分

predict f1 f2 f3 ……

7.因子得分图

scoreplot

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180603G1EZE100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券