美MIT研发“数据科学机器”

在2015年10月19至21日召开的电气电子工程师学会(IEEE)数据科学和先进分析方法的国际会议上,美国麻省理工学院(MIT)研究人员James Max Kanter与Kalyan Veeramachaneni发表了题为“深度特征合成:面向自动化数据科学探索”的论文。研究人员首先开发了“深度特征合成”算法以从关系数据集中挖掘特征;其次实现了通用的机器学习管道,并利用新的高斯分布模型对该管道进行调整;最终打造出“数据科学机器”,能从原始数据中自动获得预测模型。研究人员基于InnoDB表格存储引擎和MySQL数据库开发深度特征合成算法及数据科学机器,并利用Python编程语言进行逻辑计算、管理和操作合成特征。

MIT研究人员已在2014年国际知识发现和数据挖掘竞赛(KDD CUP)、2015年国际人工智能联合会议(IJCAI)和2015年KDD Cup三个不同的数据科学竞赛上测试了数据科学机器。在前两场竞赛中,数据科学机器击败了90%以上的竞争对手,在第三场竞赛中,该机器击败了约86%的对手。结果显示,数据科学机器能从原始数据中自动得出具备价值的新特征。

研究人员表示,目前数据科学机器无需大量人工交互。未来他们将提供方法,通过人类指导并与机器交互,充分发挥人与机器的双重智能。数据科学家可重点关注于改善性能的参数选择,最终提升整体机器系统的表现。


原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2015-11-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏达观数据

技术干货 | “想你所想”之个性化推荐:实践与优化

在当今 DT 时代,每天都在产生着海量的数据,移动互联网的兴起更是让我们体验到获取信息是如此的简单和方便。 同时,更多的选择也带来更多的困扰,面对层出不穷的信...

3605
来自专栏企鹅号快讯

每个数据科学家都应该学习4个必备技能

摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为数据科学家的人去学习。 这篇文章对应之前发表过的一篇关于如何成长为一名...

1746
来自专栏大数据挖掘DT机器学习

达观数据个性化推荐系统应用场景及架构实现

在当今DT时代,每天都在产生着海量的数据,移动互联网的兴起更是让我们体验到获取信息是如此的简单和方便。 同时,更多的选择也带来更多的困扰,面对层出不穷的信息和...

3734
来自专栏AI科技评论

谷歌公布72位量子比特处理器,吹响量子霸权冲锋号

AI 科技评论按:谷歌量子 AI 实验室今天发布了新的 72 位量子比特的量子处理器 Bristlecone。虽然目前还没有看到具体的实验结果,但这块芯片的未来...

3026
来自专栏新智元

《科学》封面论文作者力作:搭建像人一样思考和学习的机器(附论文下载)

【新智元导读】纽约大学的B. Lake、MIT的J. Tenenbaum等人2015年底在《科学》刊发封面论文,描述“看一眼便能学会写字”的计算机。Lake、T...

3157
来自专栏AI科技大本营的专栏

不止20k,Python薪酬又飙升了?(内附转型指南)

Python 诞生之初就被誉为最容易上手的编程语言。进入火热的 AI 人工智能时代后,它也逐渐取代 Java,成为编程界的头牌语言。更有码农圈金句:「学完 Py...

3546
来自专栏IT派

请查收:写给纯小白的机器学习指南

注:很多人都在谈人工智能,谈机器学习,但他们有自己的理解,作者从一个非常有趣的场景开始延伸,步步深入,对机器学习有独特的解释和指导。 这里是另一家创业公司的聚会...

3346
来自专栏ThoughtWorks

成为金牌咨询师的五个秘诀 | TW洞见

今日洞见 文章作者来自ThoughtWorks:Julio Farah,译者来自:方淑薇。图片来自网络。 感谢ThoughtWorks校对小组:宋国强、杨宝儿、...

3739
来自专栏AI星球

如何快速入门成为厉害的数据分析师,一份完整书单

“一切都被记录,一切都被分析”就了一个信息爆炸的时代,人类过去两年产生的数据占据了整个人类文明中所产生的数据的90%。而在这些无限丰富的数据中,蕴藏着巨大的价值...

983
来自专栏机器之心

业界 | 让机器在对话中学习自然语言:百度提出交互式学习方法

选自baidu.research 机器之心编译 参与:黄小天、李泽南 自然语言处理一直是人工智能发展道路上面临的巨大挑战。此前,大多数研究都是让机器学习模型...

3558

扫描关注云+社区