目前,我正在使用h2o.ai
和SparkMLlib
对机器学习库进行调查。我发现h2o.ai
库比SparkMLlib
支持更多的ML算法,而将Spark数据帧划分到训练和测试集似乎很困难(需要将spark数据帧转换为R/h2o数据帧,这也是一种耗时/资源消耗的方法)。
与基于R的实现( h2o.ai
SparkMLib
,SparkR)相比,使用库还有哪些优点/缺点?,我正在将h2o.ai
和SparkMLlib
集中到基于R的实现(SparkR)中。因此,h2o (as.h2o)
和SparkMLlib (as.DataFrame)
的数据格式是不同的。
发布于 2016-12-09 07:07:37
部分地,我使用以下链接计算出答案:http://datasocial.onsocialengine.com/post/4171645/spark-mllib-or-h2o
详细的比较分析如下:https://github.com/szilard/benchm-ml
台架标识结果视频:https://vimeopro.com/eharmony/talks/video/132838730
机器学习库分析技术报告:https://github.com/chauhansaurabhb/Analysis-of-H2O-vs-SparkMLlib/blob/master/MLLibrary.pdf
https://stackoverflow.com/questions/41054025
复制相似问题