美MIT研发“数据科学机器”

在2015年10月19至21日召开的电气电子工程师学会(IEEE)数据科学和先进分析方法的国际会议上,美国麻省理工学院(MIT)研究人员James Max Kanter与Kalyan Veeramachaneni发表了题为“深度特征合成:面向自动化数据科学探索”的论文。研究人员首先开发了“深度特征合成”算法以从关系数据集中挖掘特征;其次实现了通用的机器学习管道,并利用新的高斯分布模型对该管道进行调整;最终打造出“数据科学机器”,能从原始数据中自动获得预测模型。研究人员基于InnoDB表格存储引擎和MySQL数据库开发深度特征合成算法及数据科学机器,并利用Python编程语言进行逻辑计算、管理和操作合成特征。

MIT研究人员已在2014年国际知识发现和数据挖掘竞赛(KDD CUP)、2015年国际人工智能联合会议(IJCAI)和2015年KDD Cup三个不同的数据科学竞赛上测试了数据科学机器。在前两场竞赛中,数据科学机器击败了90%以上的竞争对手,在第三场竞赛中,该机器击败了约86%的对手。结果显示,数据科学机器能从原始数据中自动得出具备价值的新特征。

研究人员表示,目前数据科学机器无需大量人工交互。未来他们将提供方法,通过人类指导并与机器交互,充分发挥人与机器的双重智能。数据科学家可重点关注于改善性能的参数选择,最终提升整体机器系统的表现。


原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2015-11-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【干货】Logistic回归Python实战,评估销售系统的盈利能力

【导读】一个企业的盈利与其销售市场部门密不可分,传统的销售手段是销售人员逐个联系现有或潜在的顾客,这种方式不仅耗时耗力,而且不可避免地会有疏漏,不能够精准地联系...

3725
来自专栏about云

什么阻碍了强人工智能的发展

问题导读 1.哪些问题阻碍了人工智能的发展? 2.这些问题出现的原因是什么? 导读 当今科学虽然非常发达了,但还是没能很好的理解和解释我们的世界。三...

3277
来自专栏IT派

个性化推荐系统那些绕不开的经典问题

在恰到好处的时候,用户邂逅到心仪的事物,想必正是一件美好之事。推荐系统就是那个促成美好的丘比特。

1224
来自专栏大数据挖掘DT机器学习

如何用爬虫和挖掘技术设计一款数据舆情产品?(附开发源码)

网址:http://www.kesci.com/apps/home_log/index.html#!/competition ? 一. 动机与问题背景 ...

4256
来自专栏AI科技评论

百度王海峰Quora精华整理:未来5-10年,NLP领域将会有什么进展?

AI科技评论按:近日吴恩达发文将在4月底离职百度。几乎在同一时间,百度也宣布进一步深度整合,将包括NLP、KG、IDL、Speech、Big Data等在内的百...

2714
来自专栏CDA数据分析师

吴甘沙:数据分析师进化的3道阶梯

9月11日—9月12日,由经管之家(原人大经济论坛)主办的“2015中国数据分析师行业峰会(CDA?Summit)”在北京举行。 英特尔中国研究院院长兼首席工程...

1787
来自专栏大咖说

阿里盖坤:用深度学习打造真正的智能化广告系统

文章原创首发于微信公众号「 TGO 鲲鹏会」,原文地址:阿里盖坤:用深度学习打造真正的智能化广告系统

1873
来自专栏达观数据

干货分享 |企业如何用文本挖掘技术提升运营效果?

新媒体管家 在刚刚过去的由神策数据举办的年度数据分析行业盛会—— 2017 数据驱动大会上,达观数据创始人兼CEO陈运文,作为自然语言处理领域的专家受邀出席了本...

3578
来自专栏AI科技评论

腾讯AI Lab刘霁谈机器学习,异步计算和去中心化是两大杀器

AI 科技评论按:并行计算是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部...

3145
来自专栏腾讯技术工程官方号的专栏

腾讯AI Lab刘霁谈机器学习,异步计算和去中心化是两大杀器

本文转载自「AI科技评论」,搜索「aitechtalk」即可关注。 编者按:并行计算是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器...

35213

扫码关注云+社区