大数据魔镜最大的数据可视化分析平台
中国最大最流行的大数据可视化分析挖掘平台,已服务一万五千家企业客户,其中包括中移动、中石油、政府等大客户。“大数据魔镜”致力于帮助企业处理海量数据价值,让人人都能数据分析。
开源软件在数据科学的版图上是非常重要的一块。
根据对KD上数据科学家的调查,73%的数据科学家在过去的12个月都会使用免费的开源软件。这里有很多资源是可以在网上找到的,github已经成为一个各种开源软件的仓库,也包括数据科学相关软件。鉴于机器学习在数据科学领域的重要性,我们整理出我们认为在github上最好的10个机器学习项目。
(数据截止到美国时间12月10日下午1点)
1.Scikit-learn
Machine learning in Python.
★8641,5125
最受欢迎的就是这个开源学习工具Scikit-learn,这是一个适合产业界到学术界的各地python使用者的机器学习库。Scikit-Learn的安装需要numpy,scipy,matplotlib等模块。scikit-learn的基本功能主要被分为分类,回归,聚类,数据降维,模型选择,数据预处理六个部分。
2.Awesome MachineLearning
机器学习框架、库和软件集合
★8404 ,1885
这是一个机器学习框架、库和软件集合列表。该列表是通过语言进行分类,并进一步通过机器学习的类别(一般用途,计算机视觉,自然语言处理等)分类,它还包括数据可视化工具。
3.PredictionIO
PredictionIO是一款适用于开发人员和ML工程师的机器学习服务器基于ApacheSpark, HBase and Spray构建
★8145,1002
predictionio是一个通用的框架。它包括几个著名的任务模板引擎,如分类和推荐。PredictonIO是用基础的开源技术编写的,建立在Spark同时利用它的生态系统,有Scalding原生支持。
4.Dive IntoMachine Learning
Dive into Machine Learning with PythonJupyter notebook and scikit-learn.
★4326,342
领取专属 10元无门槛券
私享最新 技术干货