首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Stata中的十个雕虫小技(下)

关于数据管理的七个雕虫小技

(一)数据的合并

可能有一些读者并不理解这个数据合并有什么用处。当然对于忠实的CGSS用户来说可能不会涉及到,但是现在越来越多的类似于CFPS、CHARLS等数据在社区、家庭、个人等层面都收集数据,这就涉及到合并的问题,最可怕的是CHARLS,他的数据分为还几个模块提供给使用者,如果不会合并基本无法使用。

[雕虫小技4]merge

merge命令是stata中常用的数据横向合并命令。举个例子,merge合并的原理基本类似于我们在excel里增加“列”,而下面介绍的append是增加“行”属于纵向合并。

数据的横向合并基本要使用如下命令

merge 1:m ID using XXX.dta

codebook _merge

keep if _merge==3

drop _merge

这里面需要注意的是第一行命令,如果被合并进来的数据与原数据数量是对等的,也就是说两个数据行数完全一样且id完全匹配,那么1:m就应该改为1:1;如果是后合并进来的数据行数多,那么就使用1:m;反之就是m:1。

[雕虫小技5]append

append主要是用于纵向数据合并,这个命令使用起来非常简单直接就

append xxx.dta

(二)stata14.0的汉字乱码转换

[雕虫小技6]stata14.0的汉字乱码转换

*数据所在位置

cd /file/*直到存储数据的最后一个文件夹;并且需要注意,此时Stata必须保正没有打开任何数据*/

*数据名称

unicode analyze xxx.dta

unicode encoding set GB18030

unicode translate xxx.dta,transutf8

这组命令能够解决绝大部分数据乱码问题,但是又一些还解决不了,例如CFPS2014,CHFS等数据。

(三)变量生成

[雕虫小技7]手动生成分类变量,防止软件无法识别

在社会科学分类变量的地位毋庸置疑,所以我们也需要对其格外关照,一般情况下软件可以自动识别,1分类的而分类变量,而其他的分类及本都会默认为连续变量。我们有两个办法防止软件误以为是连续变量

(1)生成一个新变量(比较麻烦):tab x,gen(xd)

(2)直接在原变量前加i.例如i.x

[雕虫小技8]分类变量参照组设置

分类变量在回归中的参照组设置软件默认将作为参照组,或者是第一个或最后一个分类,当然我们有的时候可能会想让其他类别作为参照,其中一个办法就是重新编码,但是比较麻烦,我们可以不转换,直接用命令ib.将ib后面的数字作为参照值,例如:

logistic gxy ib3.edu

就表示把edu这个变量的第三个分类当作参照组

[雕虫小技9]年份的提取

“林子大了什么鸟都有”,数据看多了什么乱码七糟的格式都会有,例如CGSS2006的数据中出生年这个关键变量的报告方式是“年月日”这就让人很头疼了,当然这种方式让我们获得了更多的信息比如星座,如果想在这样的数据格式中提取年份变量可以使用下面这个命令:

gen year=year(x)

[雕虫小技10]回归表的输出

使用stata分析完数据的最后一步当然是要将结果输出出来,使用下面这组命令可以直接输出出一般论文要求的回归分析表格式:

ologit y x1 x2 x3/*任意回归模型*/

est sto m1/*将上面这个模型保存为m1,当然也可以叫别的*/

esttab m1.rtf,se r2 mtitle star(+ 0.1 * 0.05 ** 0.01)/*把m1输出出来,输出包括标准误,r平方,和显著性水平*/

这种方法输出的最后文件格式是.rtf(多信息文本格式),应该保存在执行stata时cd的文件夹中。下图是使用这一命令直接输出的表:

至此,我主要为大家介绍了关于ststa中的10个雕虫小技,这些小技巧可能并不会被我们每个人所经常用到,但是一旦需要使用则是非常奏效的,希望能给大家带来一定的帮助。我也为大家把这些命令整理成了do文件,方便大家存在电脑里以备不时之需。

新年将至,祝大家在新的一年里p

欢迎大家踊跃投稿,内容有关人文社会科学的即可,可以是学术前沿思想介绍、学术论文写作与发表、各种定量研究技术和方法介绍、无论是有关统计学、大数据、R、stata、Python、GIS可视化等等,还是有关数据分析与处理,我们都欢迎哦!有偿征稿!!有偿征稿!!

投稿要求:

1、务必原创、禁止抄袭;

2、务必准确、详细,有例子,有数据,有截图;

注意事项:

1、所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,我们会在推文里注明作者署名,并有稿酬提供

2、邮件请注明投稿,邮件名为“投稿+推文名称+作者+联系方式”;

以人文之情怀

以学术为志业

···········

再次期待,并热烈欢迎各位对人文社会学科感兴趣的朋友们,无论是关于学术前沿思想介绍、还是有关人文社科定量研究方法和技术、无论是有关统计学、大数据、R、stata、Python、GIS可视化等等,都可以积极给我们投稿,我们是有偿征稿呦!!

2018年,无锡群学教育科技有限公司携人文社科新方法,祝大家新年快乐!学习进步!事业有成!我们将在新的一年里,为大家带来更多的干货分享,敬请关注!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180215G0DUCG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券