在2015年10月19至21日召开的电气电子工程师学会(IEEE)数据科学和先进分析方法的国际会议上,美国麻省理工学院(MIT)研究人员James Max Kanter与Kalyan Veeramachaneni发表了题为“深度特征合成:面向自动化数据科学探索”的论文。研究人员首先开发了“深度特征合成”算法以从关系数据集中挖掘特征;其次实现了通用的机器学习管道,并利用新的高斯分布模型对该管道进行调整;最终打造出“数据科学机器”,能从原始数据中自动获得预测模型。研究人员基于InnoDB表格存储引擎和MySQL数据库开发深度特征合成算法及数据科学机器,并利用Python编程语言进行逻辑计算、管理和操作合成特征。
MIT研究人员已在2014年国际知识发现和数据挖掘竞赛(KDD CUP)、2015年国际人工智能联合会议(IJCAI)和2015年KDD Cup三个不同的数据科学竞赛上测试了数据科学机器。在前两场竞赛中,数据科学机器击败了90%以上的竞争对手,在第三场竞赛中,该机器击败了约86%的对手。结果显示,数据科学机器能从原始数据中自动得出具备价值的新特征。
研究人员表示,目前数据科学机器无需大量人工交互。未来他们将提供方法,通过人类指导并与机器交互,充分发挥人与机器的双重智能。数据科学家可重点关注于改善性能的参数选择,最终提升整体机器系统的表现。