前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Stata | 从 CNRDS 和 CSMAR 整理区县面板数据

Stata | 从 CNRDS 和 CSMAR 整理区县面板数据

作者头像
PyStaData
发布2022-11-08 12:58:56
1.1K1
发布2022-11-08 12:58:56
举报
文章被收录于专栏:PyStaDataPyStaData

问题描述

分别由 CSMAR 和 CNRDS 下载区县统计数据,整理成区县面板数据。

CNRDS

获取数据

CNRDS 县域统计分为:基本情况,综合经济,农业、工业及投资,教育、卫生和社会保障,共计四张表。以基本情况分表为例,原始数据储存格式如下:

分析问题

对每张份表循环,提取每个指标,再按照年份、省、地区将分指标匹配。处理过程需要注意指标名称作为变量名时,特殊字符的处理。

实现过程

代码语言:javascript
复制
cd ../CNRDS
global files "区县基本情况 区县综合经济 区县教育、卫生和社会保障 区县教育、卫生和社会保障"
foreach f of global files{
	import excel using "`f'.xlsx", clear
	drop in 1
	nrow
	replace 指标 = usubinstr(指标,"(","",.)
	replace 指标 = usubinstr(指标,")","",.)
	replace 指标 = usubinstr(指标,":","",.)
	levelsof 指标, local(variables)
	foreach v of local variables{
		preserve
		keep if 指标 == "`v'"
		destring 数值 年份, force replace 
		keep 年份 省份 地区 地区编码 数值
		rename 数值 `v'
		save `v', replace
		restore
	}
}
fs *.dta
foreach f in `r(files)'{
	use `f',clear
	duplicates drop 年份 省份 地区, force
	save `f', replace
}
mergemany 1:1 all, match(年份 省份 地区) all
missings report _all,sort percent
rename (省份 地区)(省 县) 
drop 指标
save "../CNRDS中国区县面板数据_2000-2021.dta", replace

CSMAR

获取数据

CSMAR 县域经济库分为两个层级,17 个一级名称对应着不同表格,包含不同的变量。下载获取这些原始数据,得到一堆压缩包,首先解压:

代码语言:javascript
复制
cd ../CSMAR
fs *.zip
foreach f in `r(files)'{
	unzipfile `f'
}

分析问题

以各区县行政区划分表为例,CSMAR 数据储存的结构为前三行分别为变量名、中文标签、单位。处理思路是:首先,对所有的分表循环,删除第一行和第二行,并对中文标签去除特殊字符,存为 .dta;通过 统计年度、县域代码 将数据匹配。

实现过程

代码语言:javascript
复制
fs CNT_*.xlsx
foreach f in `r(files)'{
	import excel using "`f'",clear
	ds
	foreach v in `r(varlist)'{
	replace `v' = usubinstr(`v',"-","",.) in 2 
	}
	drop in 1
	drop in 3
	nrow 
	scalar f_temp = "`f'"
	local fname = usubinstr(f_temp,".xlsx","",.)
	duplicates drop 统计年度 县域代码, force
	save `fname'.dta, replace
}
mergemany 1:1 all, match(统计年度 县域代码) all
destring 年份 教育阶段标识-年末城乡居民储蓄存款余额, replace force
save "../CSMAR中国区县面板数据_2000-2021.dta", replace

问题总结

CNRDS 区县数据库的指标比较少,一些关键指标,如:农村居民人均可支配收入城镇居民人均可支配收入 没有。CSMAR 区县数据库的指标比较全,但是一些关键变量的缺失值比较多,不知是原始数据缺失,还是 CSMAR 的问题。后续考虑对两个库的数据,结合县域统计年鉴进行比对、填充。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-09-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PyStaData 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题描述
  • CNRDS
    • 获取数据
      • 分析问题
        • 实现过程
        • CSMAR
          • 获取数据
            • 分析问题
              • 实现过程
              • 问题总结
              相关产品与服务
              数据库
              云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档