【项目】Github上的一个简单项目:用人工智能预测大学录取概率

每年有超过200万的大学申请被提交,每个申请都有一定的机遇与风险。即使是最高学术水平的学生的申请也存在随机因素,因此往往会面临困难的局面——大学招生中固有的精英管理体制会给很多申请者带来不确定性、怀疑和焦虑。

当然,有很多因素影响着录取,但有两个因素在决定录取率方面有很大的影响:GPA和SAT/ACT成绩。虽然其他因素也在考虑之中,但在统计学上不可否认的是,这两项指标对学生的申请有着不可思议的重要性——尽管没有人真正知道这些指标是如何被大学评判和过滤的。

但最终,这两项指标可以用数据科学轻松地评估数据,以分析趋势和关联。因此,我决定尝试去预测大学的录取情况。

虽然有成千上万的统计方法来分析GPA和SAT/ACT成绩和申请结果之间的趋势,但我选择了一个最近流行的预测方法:机器学习。

在Tensorflow中实现了一个架构之后,我在卡内基梅隆大学收集的数据集上训练了我的网络。

Chancey是基于GPA和SAT2400数据的大学招生录取率的预测器。令人惊讶的是,在大约15万次迭代之后(在GeForce 1060 GPU上花费了1分钟),大多数大学在这个带有50个样本数据的模型上轻松达到80%的准确率。虽然这看起来并不算准确,但它足以得出一些结论,而且肯定比任意的线性模型更好。

准备要求:

  • Python (最好是3.x版本)
  • Tensorflow (最好使用最新版本, 推荐GPU或高性能的CPU)
  • console-logging python模块,可使用pip安装
  • numpy, 强力推荐使用Python 3的发行版Anaconda
  • flask,可使用pip安装

它是如何工作的 这可能是你看到的最简单的神经网络。我只是简单地实现了深度神经网络分类器,但我没有使用传统方法来处理数百个节点,而是将这些参数打乱,并将其带到了10-20-10的隐藏层。输入都是标准数字。

在GPA+SAT数据语料库中进行训练后,它可以预测录取情况。

训练 请参阅neuralnet文件夹中的README文件。你需要在目录中访问main.py。例如neuralnet/main.py .. args ..。组装一个数据集CSV文件。将1/3的内容剪切成另一个CSV文件,这个新文件是你的测试数据集。

将GPA和SAT分数设置的很高

我已经提供了我最初收集的CMU数据集来训练这个网络。更多关于命名数据集的信息在README文件中。

快速统计:Geforce 1060,6gb,150,000步长花费了四分钟,准确率为78.5%。

损失超过150,000步长的图表:

缩减损失超过15万步长(褪色的蓝线是交叉验证,没有过度拟合和更多训练的空间)

预测 为了便于使用,我使用Bootstrap 3设计了一个简单的GUI。python website.py,你需要使用Flack。

总之,它在某种程度上被证明是有用的,该项目的完整源代码可以在Github上获得。

Github地址:https://github.com/pshah123/ChanceyNN

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏有趣的Python

TensorFlow应用实战-1- 课程介绍及项目展示

带你开发TensorFlow人工智能应用 舆论热点 & 朋友圈 阿尔法狗 人工智能Dota2 Jarvis智能管家(取自钢铁侠中) 工业应用: 无人驾驶汽车 语...

3909
来自专栏数据派THU

独家 | 这15个最热门的GitHub库你不可错过!

原文标题:15 Trending Data Science GitHub Repositories you can not miss in 2017 作者:SU...

2168
来自专栏技术翻译

关于TensorFlow你应该知道的9件事

TensorFlow是一个机器学习框架。如果你有大量的数据或你在人工智能中追求的最先进的东西,那么这个框架可能是你最好的选择:深度学习。

290
来自专栏张红林的专栏

常见机器学习效果调优思路整理

实际工作中,对模型和算法的效果如果不满意,需要进行调优,但往往不知道该怎么下手,本文是一篇博客的学习笔记,分享给大家。

7140
来自专栏AI科技大本营的专栏

我们从250个机器学习开源项目中挑出了Top 10,Github平均star979

在过去一个月中, Mybridge 从 250 个机器学习开源项目中挑选出了 Top 10。Mybridge AI 比较了这期间发布的新项目和重大项目,然后依据...

783
来自专栏机器人网

英特尔Movidius神经元计算棒(NCS)基于ROS的实现与封装

如今,人工智能的热潮正在席卷各行各业,而计算力和数据、算法一同支撑着人工智能的蓬勃发展。作为人工智能的一个重要分支, 深度学习以其良好的表现,越来越受到业界的广...

862
来自专栏AI传送门

斯坦福大学《机器学习》课程-中文版内容(3.4)

1245
来自专栏人工智能LeadAI

译文 | 与TensorFlow的第一次接触(一)

本人对一直对高性能网络服务器,分布式存储比较感兴趣,在BAT时也一直从事架构开发,并没有做过机器学习相关工作,平时喜欢阅读分析开源代码,到目前为止已分析完约8套...

3166
来自专栏AI科技评论

开发 | 低配硬件就不能运行深度神经网络了?手把手教你克服“杀牛用鸡刀”难题

如果对深度学习有所了解的小伙伴们想必都知道,深度学习需要使用强大的服务器、加速嵌入式平台(如NVIDIA的Jetson)来运行深度学习算法,然而这也同样意味着不...

3625
来自专栏专知

【书籍】深度学习框架:PyTorch入门与实践(附代码)

【导读】2016年是属于TensorFlow的一年,凭借谷歌的大力推广,TensorFlow占据了各大媒体的头条。2017年年初,PyTorch的横空出世吸引了...

8296

扫码关注云+社区