首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据清理之青木时代

昨天的推进十分顺利,今天虽然发生了点小插曲,但是问题不大,剩下的时间还是能做不少事情。

单库逻辑,实际上是厘清了问题逻辑、数字逻辑与编码逻辑。

放宽到多库逻范畴,问题就变得相对复杂了一些,但是并非完全无章可循。

先说什么叫做多库逻辑。CFPS2010有成人库、少儿库、家庭库、家庭关系库、社区库五库;CFPS2012有成人库、少儿库、家庭库、家庭关系库、跨期关系库五库;CFPS2014有成人库、少儿库、家庭库、家庭关系库、社区库五库。其中,同一年份的数据库可以merge,不同年份的数据库可以append,我最后要做的那些计量分析,需要这十五个独立的数据库中的数据。根据我现在的技术水平,想要得出最后的结果,唯一的路径便是将这十五个数据库整合到一个数据库中,整合过程的指导思想便是我所谓的多库逻辑。

数字逻辑的那些工作,到计量分析之前临时一搞便可,这里不再赘述。

最最关键的依然是问题逻辑:我应该选取哪些库的哪些变量?小样本的微观数据,谈研究设计有点浮夸,要提高打靶的命中率,一定要跟着变量的丰富程度走。丰富不丰富,只有tab了才能知道。想到这里,我似乎又意识到了一件有意思的事情:对于一篇追求速度而非精度的无使命感约束文章,能解民生之多艰固然是好,但在那之前先要开展救亡图存的pose运动。即选变量时应兼顾问题与样本量,这应该是一个边走边爱的过程。

昨天的一个想法是,跟踪10-15岁拥有自答能力的少儿。因为这部分人自己回答的问题较多,可供研究的Y应该也不少,尤其是高中成绩这一块。可是后来发现这一分段的孩子大多数都在上小学和初中,高中总共也就三年,2012年这些孩子的年龄段变成了12-17,有部分孩子读到了高一(A)和高二(B);到2014年的时候,这群孩子的年龄段到了14-19,A读高三,B高中毕业,,又有了新的高一(C)和高二(D)学生。我们可以看到,在这所谓的三年期面板数据中,高中的问题没有任何队列的孩子可以连续回答三次,且只有A这一个队列可以回答两次,B、C、D只能回答一次。

想明白这个问题之后,其实也就不耽于问题丰富的高中组同学了。X取自少儿库的思想不会变,但是Y就应该加入成人库的因素了。问题逻辑先放一放,因为有一个问题一直以来并没有被我重视,那就是数据库并非披露了问卷中的全部问题。先来看看编码逻辑很有必要。这个编码逻辑其实也只用先看2012和2014的少儿库,因为成人库中我们需要的东西也很是寥寥。第一步要做的事情:编码对照。首先,利用stata中的svvarlbl using varlabel.log命令,将2010,2012,2014少儿库中的所有变量以及标签全部都导成log形式、其次,利用excel中的left、mid以及分列命令,将log格式转化成excel格式。第二步,将跨年份的问题一一对应上,其中2014有两版,第一版是中文的,更新了之后有些变化,也成了英文的,2014年的需要单独对照。第三步,将跨年份的ID全部统一,则神功初成矣。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180111G1086S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券