【项目】Github上的一个简单项目:用人工智能预测大学录取概率

每年有超过200万的大学申请被提交,每个申请都有一定的机遇与风险。即使是最高学术水平的学生的申请也存在随机因素,因此往往会面临困难的局面——大学招生中固有的精英管理体制会给很多申请者带来不确定性、怀疑和焦虑。

当然,有很多因素影响着录取,但有两个因素在决定录取率方面有很大的影响:GPA和SAT/ACT成绩。虽然其他因素也在考虑之中,但在统计学上不可否认的是,这两项指标对学生的申请有着不可思议的重要性——尽管没有人真正知道这些指标是如何被大学评判和过滤的。

但最终,这两项指标可以用数据科学轻松地评估数据,以分析趋势和关联。因此,我决定尝试去预测大学的录取情况。

虽然有成千上万的统计方法来分析GPA和SAT/ACT成绩和申请结果之间的趋势,但我选择了一个最近流行的预测方法:机器学习。

在Tensorflow中实现了一个架构之后,我在卡内基梅隆大学收集的数据集上训练了我的网络。

Chancey是基于GPA和SAT2400数据的大学招生录取率的预测器。令人惊讶的是,在大约15万次迭代之后(在GeForce 1060 GPU上花费了1分钟),大多数大学在这个带有50个样本数据的模型上轻松达到80%的准确率。虽然这看起来并不算准确,但它足以得出一些结论,而且肯定比任意的线性模型更好。

准备要求:

  • Python (最好是3.x版本)
  • Tensorflow (最好使用最新版本, 推荐GPU或高性能的CPU)
  • console-logging python模块,可使用pip安装
  • numpy, 强力推荐使用Python 3的发行版Anaconda
  • flask,可使用pip安装

它是如何工作的 这可能是你看到的最简单的神经网络。我只是简单地实现了深度神经网络分类器,但我没有使用传统方法来处理数百个节点,而是将这些参数打乱,并将其带到了10-20-10的隐藏层。输入都是标准数字。

在GPA+SAT数据语料库中进行训练后,它可以预测录取情况。

训练 请参阅neuralnet文件夹中的README文件。你需要在目录中访问main.py。例如neuralnet/main.py .. args ..。组装一个数据集CSV文件。将1/3的内容剪切成另一个CSV文件,这个新文件是你的测试数据集。

将GPA和SAT分数设置的很高

我已经提供了我最初收集的CMU数据集来训练这个网络。更多关于命名数据集的信息在README文件中。

快速统计:Geforce 1060,6gb,150,000步长花费了四分钟,准确率为78.5%。

损失超过150,000步长的图表:

缩减损失超过15万步长(褪色的蓝线是交叉验证,没有过度拟合和更多训练的空间)

预测 为了便于使用,我使用Bootstrap 3设计了一个简单的GUI。python website.py,你需要使用Flack。

总之,它在某种程度上被证明是有用的,该项目的完整源代码可以在Github上获得。

Github地址:https://github.com/pshah123/ChanceyNN

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 这是一份非常全面的开源数据集,你,真的不想要吗?

672
来自专栏机器之心

业界 | 谷歌展示全新医疗诊断范式:深度学习+AR显微镜=实时检测癌症

选自Google Research Blog 作者:Martin Stumpe、Craig Mermel 机器之心编译 参与:路、刘晓坤 今天,谷歌在美国癌症研...

3286
来自专栏ATYUN订阅号

MIT开发新型加密方法,使基于云的机器学习更具安全性

麻省理工学院研究人员设计的一种新型加密方法可以保护在线神经网络中使用的数据,而不会减慢其运行时间。这种方法有望在基于云的神经网络进行医学图像分析和其他使用敏感数...

1133
来自专栏磐创AI技术团队的专栏

公交车总迟到?你大概掉进了“等待时间悖论"

你到了车站,准备搭乘声称每10分钟一班的公交车。你盯着你的手表留意着时间,结果公交车终于在11分钟后到来。

341
来自专栏新智元

谷歌 DeepMind 发布 DNC 升级版,可扩展的稀疏可读写存储器增强计算机 SAM

【新智元导读】谷歌DeepMind最新论文,在此前 DNC 成果的基础上,针对 DNC 无法扩展的问题,提出了一种端到端的可微分储存器读写机制,将其称为 “稀疏...

3486
来自专栏量子位

最强NLP模型BERT喜迎PyTorch版!谷歌官方推荐,也会支持中文

谷歌的最强NLP模型BERT发布以来,一直非常受关注,上周开源的官方TensorFlow实现在GitHub上已经收获了近6000星。

953
来自专栏安全领域

机器学习,流式IoT和医疗设备互联

现如今,IoT数据,实时流式数据分析(streaming analytics),机器学习以及分布式计算的组合相比之前有了长足的进步,同时成本也比以前要低,这使得...

73410
来自专栏量子位

和免疫荧光标记说拜拜 | 谷歌Cell论文:深度学习模型预测荧光位置

常用的相差显微镜观察法,是从生物组织的一侧给光,对细胞损伤小,且材料准备过程非常简单。

1133
来自专栏AI科技评论

动态|99.80%!腾讯优图刷新人脸识别新高度

AI科技评论消息,在国际权威人脸识别数据库LFW上,腾讯优图实验室在无限制条件下人脸验证测试(unrestricted labeled outside data...

3197
来自专栏Python数据科学

资源 | 致深度学习的入门者与小白的一份学习清单

本篇文章是基本按照学习的先后顺序进行写的。具体的入门方式取决于你已经掌握的知识。要理解并应用深度学习,必须先掌握线性代数、微积分和统计学,还应当具备编程及机器学...

731

扫码关注云+社区