很久没写Python了,有点手生,于是想找点数据来玩一玩。
数据源大致有以下4类:
其中最容易获得的就是开放数据源,
开放数据源可以从两个维度来考虑:一个是单位的维度,比如政府、企业和高校。二是行业的维度,比如交通、旅游、金融等领域。
所以说数据源并不一定得用爬虫去获取。
当然了,自己写爬虫来抓取的数据可定制化程度最高,所以说多学点爬虫也是很有必要的。
很多政府机关、高校以及企业都有开放数据源,比如本文的数据源来自于:[北京大学开放研究数据平台 ]: http://opendata.pku.edu.cn/
这是一份全国高等院校名单
先来看一下各个城市的高校数量分布图:
以上十三个城市都有50所以上的高校,其中北京、武汉和广州的高校最多,分别为92所,84所和83所。
一个高校就可以带动周边经济的发展,因为大学生的消费能力是相当庞大的。所以说,高校数量越多,也可以侧面反映出该城市的经济水平。
生成一张气泡图,颜色越深的数量越多。有点像“球球大作战”
再看看教育部直属高校的分布情况,这一波高校代表了我朝最高的教育水平:
北京共有25所教育部直属高校,遥遥领先其他城市,果然帝都的教育资源就是丰富。
这张图还有一些信息没显示出来,比如人口大省--河南省,一所985高校都没有,仅有一所211,可以说河南省的学生考大学的竞争压力是最大的。
最后再看看本科和专科的占比情况
我朝目前有1100所本科,1200所专科,数量不要太多.....
没想到民办院校还挺多的。在中国具有绝对优势的高校都是公办院校,而在美国恰恰相反,美国的一流大学几乎全是民办的。
这么多大学,好一点的其实就只有那几十所。有一句话是这么说的:宁做凤尾、不做鸡头。