改进的基于校园大数据的大学生职业选择预测

自从我们FCS微信公众号推荐了《Advanced forecasting of career choices for college students based on campus big data(改进的基于校园大数据的大学生职业选择预测)》一文后,很多读者对该文表示了极大的兴趣。今天,我们分享一位读者给我们带来的一篇通俗易懂的论文阅读笔记。如果您也同样对这篇论文感兴趣,或者也想把您阅读我们期刊论文的感受分享给更多的小伙伴,欢迎在文后留言或者与我们联系。

本文作者:吴家熙

北京航空航天大学计算机学院

01

引言

职业方向选择一直是困扰青少年的一个问题,传统的职业评估通过问卷调查来解决这一问题。但是由于一些内在的因素和心理原因,学生们可能很难认清自己的情况,问卷的结果可能并不能完全反映其内心状态。

本文重点在于提出了一个数据驱动的计算框架,根据学生在校园内外的行为来预测毕业后学生的职业选择,从而在职业咨询和指导方面发挥重要作用。

“自我感知”理论认为,通过观察自己的行为举止来推断自己的心理状况是形成自我概念的主要方式。尽管许多学生的行为都是普通的、模棱两可的、难以翻译的,我们仍可以将其作为诊断心理问题的线索。

Fig1. Am I confident ?---- self-perception theory[1]

现如今许多学校都有了先进的信息管理系统,通过简单的一张校园卡就能轻松有效地搞定学习和生活。而当学生们和系统进行交互时,例如就餐、购物、借书和上课等数据都会被不断地实时记录下来。该数据的急速增长为我们了解学生行为提供了可能。

就如上述所言,学生的行为数据十分庞大且难以量化评估,该如何转变成我们可以用于计算的特征数据呢?根据心理学研究结果,作者调研了四种影响职业选择且具有代表性的行为特征:

1. 来自于课程记录的专业技能精通程度评估;

2. 吃早餐、去图书馆以及洗澡的行为规律性;

3. 表现在借书记录上的兴趣和爱好;

4. 通过日常消费记录评估出的家庭经济状况。

作者在来自超过四千名学生的真实数据上,通过提取以上特征,进行了针对职业选择问题的多分类预测模型建立。而至于分类结果可以划分为以下四种:出国留学、找工作、国内继续深造和其它。

2

特征工程

本文最重要的便是作者如何将混杂模糊的数据提取为可计算的、互不干涉的有效特征。

2.1 专业技能精通程度评估

该项特征来自于学生的课程记录,其中最主要的便是学生在这门课的成绩。然而在数千门课程的数据下,如何表示这一稀疏特征,这将是一个难题。另外,许多专业技能可能是由多门课程共同决定的,比如“机器学习”的精通程度就可以用“概率统计”、“线性代数”、“数学分析”等几门课程共同决定。因此作者使用了矩阵分解的方法来进行数据降维和特征提取,

将原本M 个学生,S 门课程的MxS 形式的稀疏矩阵课程成绩数据降维到MxK 大小矩阵。

Fig2. matrix factorization[2]

2.2 行为规律程度

责任心通常与工作和学习中的表现成正相关,而有责任心的人一般更倾向于自律。自律可以通过日常行为的规律性来反应,因此本文认为行为规律性有助于学生对职业选择做规划。作者尤其关注吃早餐、去图书馆和洗澡的规律性。

本文使用各行为发生概率的信息熵来作为评估结果。将一天划为n 个时间间隔,T = ,对于任意行为v∈V ={“早餐”, “图书馆”, “洗澡”},在时间间隔ti 内发生的概

率为:

其中nv(ti)是行为v 在时间ti 时发生的次数,信息熵计算如下:

2.3 读书倾向兴趣

课程外阅读是学生们扩展知识的一大途径,因此图书馆借书记录可以反映学生的兴趣倾向,而这也会影响职业选择。按单本书分类则维度太高,因此考虑使用类似上文中提取专业技能精通程度的降维算法。但因为结果可能更在意借书历史的某些信息,而和未来职业选择无关,此处改进而采用了一个有监督的算法,详细过程过长,有兴趣请参考原文。

2.4 家庭经济状况评估

采用问卷的形式可能并不能得到贴切的结果,因为有的学生可能为了获得更好的经济援助而胡诌家庭情况,所以从学生的消费记录中评估家庭经济情况是一个不错的选项。作者的侧重点在于学生们在食堂和超市的消费记录。

可以使用的数据以时间序列储存,分别为较短时间间隔的就餐、购物支出序列以及每日总支出序列。对于这三个序列,每一个都能得到以下七个特征:最小值,最大值,中位数,平均数,四分位距,标准差以及峰度。其次还能得到周末和工作日消费的比值。最后一项特征来自于FFT(快速傅里叶变换)。首先将长为n 的原数据[x1, x2, . . . , xn]减去平均值得到[ ˜x1, ˜x2, . . . ,˜xn],最后一项特征Energy 定义如下:

通过以上方法,经济状况领域总计能得到3x(7+1+1)共27 个特征。

3

实验结果

作者提取出的特征数据按学期可以分为六段,分别将这六段输入到六个独立的基学习器上,其上使用Adaboost 得到结果。同时因为各基学习器输入没有交集,其本身也可以用Adaboost算法。

实际数据规模如下: 共计4,246 名学生,13,122,696 次消费记录,其中含6,875,698 次食堂消费记录。租过172,894 本书,产生336,238 次借书记录。共1,072 门课程,有276,588 个课程成绩记录。

作者在选择不同算法作为基学习器时五折验证结果如下:

Fig3. The comparison of different classification algorithms

在完全随机情况下结果为0.25,按出现最多类算为0.44。这表明学生职业选择是可以通过其学习和生活行为习惯预测的。

选择表现好的随机森林用于后续实验,本文评估了各类特征在做预测时的重要性如下:

Fig4.Importance of four types of features

这表明四类特征对于职业选择预测都有明显影响且专业技能精通程度影响最大。

而在分别使用专业技能、规律性以及读书兴趣作为输入特征,依次使用六个学期的数据进行实验时,结果表明越接近毕业精度越高。

Fig5.The precision of each semester

参考资料来源:

[1].https://www.theguardian.com/lifeandstyle/2012/oct/05/change-your-life-self-perception-theory

[2].https://blog.csdn.net/GZHermit/article/details/73920755

注:本文为该读者的阅读笔记,未经原论文作者和FCS期刊审读。仅供广大读者参考。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180606G0JVLP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券