用Python分析我国高等教育分布的不均衡

朱小五

发布于 2019-11-28 21:48:15

2590

发布于 2019-11-28 21:48:15

当前正值开学季，各个心怀梦想的学子们都迈入了自己理想中的大学。只是当我们站在象牙塔前，再回首凝望高中生活，一路走来，是不是会感慨万千呢。都说高考是普通大众改变命运的最好的阶梯，那么大学就是培养能力，形成品格的试验田，而通向这块田地的之路却并不平坦。尤其是一些高考大省的小伙伴儿们，是经历了怎样的拼搏，才一路拼杀过来的呢。

这里就涉及到了各个省份的招生标准和各省的高校资源情况了，毕竟每个省的高校，在本省的招生数量既多，要求又低（差不多是这样…）。

都说高考其实是相对公平的选拔，那么今天我们就用数据来说话，看看全国的教育资源，高校分布到底是怎样，哪里的小伙伴相对来说，更容易踏入大学的校门呢。

数据获取

这里我选择的是“高考网”作为我数据的来源

http://college.gaokao.com/schlist/p1 网站很简单，也没有任何的反爬机制，直接分析页面，获取并保存数据就可以了这里直接给出代码，不关心数据获取过程的小伙伴儿可以跳过此部分

import requests
from bs4 import BeautifulSoup
import os
import time


def get_data():
    for i in range(1, 108):
        print("正在下载第%s页数据" % i)
        url = 'http://college.gaokao.com/schlist/p%s' % i
        res = requests.get(url).text
        content = BeautifulSoup(res, "html.parser")
        college_list = content.find('div', attrs={'class': 'scores_List'}).find_all('dl')
        items = map(parse_item, college_list)
        save_to_csv(items)
        time.sleep(1)


def parse_item(item):
    college_name = item.find('strong')['title']
    college_attr = item.find_all('li')
    college_site = college_attr[0].text[6:]
    college_title = college_attr[1].text[5:]
    college_type = college_attr[2].text[5:]
    college_belong = college_attr[3].text[5:]
    college_nature = college_attr[4].text[5:]
    college_website = college_attr[5].text[5:]
    result = {
        'college_name': college_name,
        'college_site': college_site,
        'college_title': college_title,
        'college_type': college_type,
        'college_belong': college_belong,
        'college_nature': college_nature,
        'college_website': college_website
    }
    return result


def save_to_csv(data):
    if not os.path.exists(r'college_data.csv'):
        with open('college_data.csv', 'a+', encoding='utf-8') as f:
            f.write('name,site,title,type,belong,nature,website\n')
            for d in data:
                try:
                    row = '{},{},{},{},{},{},{}'.format(d['college_name'],
                                                        d['college_site'],
                                                        d['college_title'],
                                                        d['college_type'],
                                                        d['college_belong'],
                                                        d['college_nature'],
                                                        d['college_website'])
                    f.write(row)
                    f.write('\n')
                except:
                    continue
    else:
        with open('college_data.csv', 'a+', encoding='utf-8') as f:
            for d in data:
                try:
                    row = '{},{},{},{},{},{},{}'.format(d['college_name'],
                                                        d['college_site'],
                                                        d['college_title'],
                                                        d['college_type'],
                                                        d['college_belong'],
                                                        d['college_nature'],
                                                        d['college_website'])
                    f.write(row)
                    f.write('\n')
                except:
                    continue

if __name__ == '__main__':
    get_data()

我们来看下最后拿到的数据

数据还是比较整齐的，下面就进入到数据分析阶段

高校总数量排行

先不考虑高校质量、级别等因素，单单从高校数量方面来看下各个省份的排名情况

排行榜

总体排名

高校数量前十

高校数量后十

能够看到，高校数量靠前的省份为江苏、山东、湖北、广东，这些可都是高考大省，同时高校数量也是非常多的。而更加著名的高考大省河南河北，同样也有着不错的高校数量，看来这些省份虽然考生多，但是要想考上本省的一个大学，还是比较有优势的。但是对于贵州、内蒙、青海，西藏等地区的考生来说，高考考出省，也许会是个不错的选择哦。