前言
又是一年高考季,时光荏苒,岁月如梭,小编高考已经过了好几年了,每个人对高考都有着不同的感受,但这不是这篇文章的重点。
这次小编得到14-19年各省分数线的数据集,使用 pyecharts 对每个省份往年分数线展示,以及粗略的预测一下今年分数线。
数据来源:
https://zhuanlan.zhihu.com/p/152309115
数据说明
数据包含地区,年份,考生类别,批次,分数线这五个字段,我们只展示每年文理科的本科一批及本科二批的数据:
各省历年分数
使用 pyecharts 制作的效果先来看一看,这个制作效果是来自:
https://www.kesci.com/home/project/5f03ba09bf776d002d054058
小编借鉴了代码,并给每一行写了注释。
代码有点长就不放了,回复关键词获取即可。
预测今年分数
小编根据14-19年各省的分数线分别预测文理科的分数,使用的是灰度模型,结果是很粗略的。
为什么说粗略呢,因为有些省份并不是都有14-19年数据,这样的预测结果误差非常大,有14-19年数据的预测结果误差在10分左右。这是还没考虑疫情,试卷难度等的情况下,把这些因素考虑分数线会比预测值低。
灰度模型,介绍一下:
灰色预测法是一种对含有不确定因素的系统进行预测的方法。
在建立灰色预测模型之前,需先对原始时间序列进行数据处理,经过数据处理后的时间序列即称为生成列。
灰色系统常用的数据处理方式有累加和累减两种。
灰色预测法的通用性比较强些,一般的时间序列场合都可以用,尤其适合那些规律性差且不清楚数据产生机理的情况。
优点:具有预测精度高、模型可检验、参数估计方法简单、对小数据集有很好的预测效果。
缺点:对原始数据序列的光滑度要求很高,在原始数据列光滑性较差的情况下灰色预测模型的预测精度不高甚至通不过检验,结果只能放弃使用灰色模型进行预测。
简单说就是预测一列数据的。
实现的算法代码,也一起放到源码里面了,我们直接调用预测即可:
预测的结果保存为 csv 文件:
源码获取
回复 “高考” 即可获取