我正在寻找一个程序,我可以部署在我的计算机上,甚至更好地在我自己的集群(亚马逊EC2,OpenStack等)。这将提供机器学习作为服务 (MLaaS)。理想情况下,该程序将是免费的和开放的源代码。
简单地说,该程序将以一些数据集作为输入,并尝试一系列不同的机器学习算法(如NB、KNN、ANN、SVM、DT等)。在不同的参数(聚类/神经元/层数、激活函数、使用的度量、正则化等)下,输出所发现的最优模型。(最好使用一些常用的度量标准来定义,如准确性、ROC的AUC、F1等)。
我知道用一些现有的库(如科学知识-学习 )测试一组不同的模型很容易,但我正在寻找一种解决方案,它不需要或极小的编码,并且可以尽可能并行(多CPU/GPU)和可分布(可在计算机集群上部署)。
发布于 2014-06-15 15:44:55
加州大学伯克利分校( UC Berkeley)正在开发一个名为MLbase的项目。它的设计考虑了分布式计算,另一个目标是自动(而且有些高效)尝试许多不同的算法和超参数。据我所知,第二件事(他们称之为ML优化器)还没有准备好。就目前而言,你可能会发现,如果你决定推出自己的模型搜索方案,它们的Scala/Spark分布式算法实现可能会很有用。
在他们的网站上有更详细的内容:

MLI和MLlib的源代码已经发布,但ML优化器正在积极开发中,我看不到下载它的任何地方(因为ML优化器是符合OP要求的层),这是很烦人的。整个MLbase框架依赖于阿帕奇火花 (免费的、开源的)。除了其他一些有用的模块之外,还可以将MLlib视为其之上的一个模块:

MLlib适合Spark的API,并与NumPy进行互操作(从Spark0.9开始),并且Spark可以在EC2、Mesos或Hadoop上独立运行。
MLlib用户指南列出了所有受支持的机器学习模型:

在MLbase上有很多出版物:
https://softwarerecs.stackexchange.com/questions/3806
复制相似问题