首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大学给学生“偷偷”打钱,他们是如何实现精准资助的?

来源:寻道科技(XDbigdata)

近期,央视等各大媒体都对大学精准资助进行了报道,甚至有大学给学生卡里“偷偷”打钱,网友纷纷表示“真的很暖心!”,同时也提出了疑问“这是如何实现的呢?”

其实这是利用了“大数据”进行精准扶贫点击这里看案例-电子科技大学精准资助)。一个系统就实现了贫困生的精准认定、精准预警,帮助学校实现精准帮扶,大大减轻学校工作量,并且更加科学。

今天,寻道君就跟大家聊一聊大学如何利用大数据实现“精准资助”。

机器学习算法辅助资助工作

利用大数据实现“精准资助”,主要还是依靠大数据机器学习算法。新生在精准资助系统上申请困难补助后,提交纸质证明《高等学校及家庭情况调查表》,即可根据训练好的模型,对新生进行分类。

例如针对学生的贫困情况,将学生分为不困难、一般困难、困难、特别困难四种情况进行预测,这是一个标准的四分类问题。

机器学习模型实现多分类判断

假设将学生贫困认定分为不困难、一般困难、困难、特别困难,分别用数字标签(0、1、2、3)表示,如果我们只用一个两分类的模型(比如决策树、支持向量机等),怎么用呢?我们可以采取如下的策略:

一对一(OvO):一个分类器用来处理数字 0 和数字 1,一个用来处理数字 0 和数字 2,一个用来处理数字 0 和 3,以此类推。4分类需要6个分类器。

一对其他(OvR):训练4个分类器,每一个对应一个数字,第一个分类0和非0,第二个分类1和非1,以此类推。N 个类需要 N 个分类器。

一对一(OvO)

在 OvO 中,6个分类器为 f1 , f2 , f3 ,f4 , f5 , f6 。

f1 负责分类一般困难和困难,预测为一般困难

f2 负责分类一般困难和特别困难,预测为一般困难

f3 负责分类一般困难和不困难,预测为一般困难

f4 负责分类困难和特别困难,预测为困难

f5 负责分类困难和不困难,预测为不困难

f6负责分类特别困难和不困难,预测为特别困难

根据多数原则得到的结合预测为一般困难,示意图如下:

一对其他(OvR)

在 OvR 中,4个分类器为 f1 , f2 , f3 ,f4 。把数据分成“某个”和“其他”:

f1 负责分类不困难和其他,预测为其他

f2 负责分类一般困难和其他,预测为一般困难

f3 负责分类困难和其他,预测为其他

f4 负责分类特别困难和其他,预测为其他。

四个分类器都预测了一般困难,根据多数原则预测为一般困难:

以上简单介绍了多分类的策略,而针对单个模型,可以选择不同的分类模型,比如逻辑回归、支持向量机、决策树等。

单个模型的预测

以逻辑回归为例,我们在作特征工程时,根据获取到的学生数据,建模抽象出学生属性标签体系。该体系把特征划分为多个大类:固有属性、学习属性、成绩属性、社交属性、经济属性……

这里我们再引入一个sigmoid函数(也被称为S函数),它在机器学习应用的十分频繁,特别是在神经网络和深度学习领域。

我们上面分析的两种不同效用相互比较时,其中一方胜出的概率分布在数学上可以近似为sigmoid函数,函数方程和累计函数分布图如下图:

如何让计算机学习到参数?

从机器学习的角度,我们希望选择的参数使得模型预测的误差(即定义的损失函数)越小越好;

从统计学的角度,我们希望根据模型,数据出现的概率越大越好(即最大似然估计法)。

逻辑回归的损失函数被称为交叉熵:

抛开具体的应用场景,从抽象出的模型角度看:不管是监督学习、无监督学习,每个模型都有自己的损失函数,损失函数可以包含若干个未知的参数,我们需要通过算法估算出这些未知的参数。

估计未知参数的原则是:使得损失函数最小。通常使用的估算参数的算法包括梯度下降算法、随机梯度下降算法、共轭梯度、局部优化法(BFGS)、有限内存局部优化法(LBFGS) 。

在学校精准资助系统中,我们会结合学校具体情况建立不同的模型,以提高资助的精准性。随着数据的增加和丰富,系统的准确度会不断增加,帮助学校提升学生资助工作的精准度和质量。

- DataCastle -

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191010A0I8YK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券