首页
学习
活动
专区
工具
TVP
发布

数据的来源和缺失值处理

最近小编多了个头衔,没错小编晋升了,荣升——“锁长”(最后一个离开自习室的,专门负责关自习室的门窗),虽然此锁长,非彼所长,但是干起来压力山大啊,每天仔细检查门窗有木有关好,这真的是操碎了心啊!

好了,我们言归正传,上期我们谈了多目标决策问题和指标的筛选,今天紧接着上次的话题聊聊数据的获取和缺失值的处理!

总的来讲,数据分为一手数据和二手数据,一手数据是通过直接调查或者实验获得的,而二手数据主要是间接获取的,比如摘自前人的数据资料都是二手的,这个大家都知道,但是大家经常遇到的问题是:看起来是常识性的东西,到真正自己去做的时候,往往很陌生!

(1)统计年鉴

统计年鉴是所有二手数据资料中最全面的,也是最权威的了,这也是社会科学领域的幸运之处,起码不用像理科生一样日复一日的浸泡在实验室收集数据。统计年鉴的种类比较多,包括综合性的统计年鉴和专题性统计年鉴,比如各个省份的统计年鉴和国家统计年鉴,而像 小编常用的中国旅游统计年鉴就算是专业性的统计年鉴,还有中国交通年鉴,中国法律年鉴等等都是针对特定行业领域和学科统计收集的资料,可以好好利用这块资源,一般各个大学的图书馆会购买一些本地的统计年鉴,但是不会很全。最好去省图书馆或者国家图书馆,那里的年鉴资料会比较丰富,但是有些人这些资源都不易获取,那就直接在某宝上购买电子版的就可以了,通常五元一本。

(2)行业报告

一般各个专业或者行业会有自己的年度或者月度发展报告,信息量也很大,但是资料的权威性弱一些,来源也要打个问号,查阅时要注意资料的提供方,是不是权威机构?但是此类资料往往是收费的,易得性差。

(3)论文文献

对于绝大部分人来说,各个大学图书馆都购买了论文数据库,这是一个巨大的信息库,根据自己的研究点,输入关键词找到一些论文,一方面可以获得一些数据,也可以找到一些好的想法,推荐使用,特别是一些学位论文,研究的会比较全面和透彻,帮助较大,但是数据可能大多是处理过的,不易见到原始数据!

(4)报纸

这个大家可能会忽略,一些地方或者全国性报纸,会服务国家和地方的政策和发展战略搞一些专题报告,这里面的数据真的很好使!特别是政府会在年末时,总结一年的成就,会在报纸头版头条展示,平时要注意一下。

(5)国家或者行业发展规划

这个里面也会有一些数据,根据小编的最近的查阅来看,屡试不爽,总能找到一些有用的数据和资料。

(6)国家标准文件

这个大家一般不会想到,因为标准文件比较专业,一般人用的少,其价值常常被忽略!按标准,按规矩办事才是保险的,一定要关注自己研究领域的最新标准,这是一个重要的参考值!

(7)国家法律法规

这个我就不用多说了,学法律学财会类专业的,如果这个都不关注,我觉得你一定上了假大学!

当然,实验和调查获得是一手资料,尤其不可或缺的价值,这个今后有机会会专题讲解如何设计带量化标度的问卷,可直接带入spss 进行统计分析。

最后就是缺失值处理,一般来说,如果数据缺的不多,可以求平均增长率,直接带入求解,也可以利用spss 软件的相关功能填补缺失值,当然这样做可能略显粗糙,但是也比捏造的强很多,刚做研究,千万不能养成投机取巧的心理,更不能随便捏造数据,这是学术道德问题!如果数据确实太严重,就换个指标嘛,不要一个树上吊死,或者自己设计个问卷获得一些定性的数据资料,也是可以的!那如果想精确填补缺失值咋整呢?可以建立拟合函数,进行填补缺失值,准确度会提升!

总之,收集数据绝对是个痛苦活,遇到的问题会特别多!如果问题都那么容易解决,我们的价值又何在呢!?

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180118G002FR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券