Github上的十大机器学习项目

Github上的十大机器学习项目涵盖了一系列函数库、框架和教学资源。我们来看看别人使用的工具和学习的资源。

开源软件是数据科学很重要的一部分。

根据最近的KDnuggets数据科学软件投票的结果,73%的数据科学家在过去12个月里使用过免费软件。互联网上有着各式各样的这类工具,而Github事实上则成为了所有开源软件的交流平台,包括数据科学社区里所用的工具。机器学习在数据科学界的重要性和中心地位已经不言而喻。

下图是Github十大机器学习项目的概览。

1. Scikit-learn

Python的机器学习库

★8641,

5125

十大之首,毫无悬念地就是工业界和学术界Python开发者首选的机器学习函数库。Scikit利用了Python的科学计算工具,它基于Numpy,Scipy和matplotlib。Scikit-learn拥有一般工具包的常规功能,包括分类、回归和聚类算法,也包括数据预处理和模型评价模块。

图片描述

2. Awesome Machine Learning

一系列绝妙的机器学习框架、函数库和软件。

★ 8404,

1885

这是一系列绝妙的机器学习框架、函数库和软件。这个列表先按照语言来分类,然后按照机器学习的类别(通用型,计算机视觉,自然语言处理,等等)。它还包括数据可视化工具,从某种意义上来说它比数据科学的通用列表更丰富,这是一件好事。

3. PredictionIO

PredictionIO是开发者和ML工程师的一个机器学习服务器。它基于Apache Spark、HBase和Spray。

★ 8145,γ 1002

PredictionIO是一个通用型框架。它包括一些处理常规问题的模板引擎,比如分类和推荐,也可以用户自定义修改,通过REST APIs或者SDKs与现有的应用连接。由于它是建立在Spark基础上并且利用了Spark的生态系统,因此PredictionIO主要用Scala开发也就不足为奇了。

4. Dive into Machine Learning

使用Python Jupyter和Scikit-learn深入研究机器学习。

★ 4326,γ 342

这是scikit-learn的一个教程集合,有大量IPython notebook脚本,和许多Python相关的或者通用型的机器学习话题的链接,以及更多的数据科学信息。作者并不很贪婪,如果某一个教程不足以吸引你,它们会很快发掘更多的其它类似内容。代码库里并没有软件,但如果你不熟悉Python环境下的机器学习,则值得读一下。

5. Pattern

Python的网页挖掘模块,包括爬虫、自然语言处理、机器学习、网络分析和可视化等工具。

★ 3799,γ 598

Pattern是基于Python的网页挖掘工具包,由Antwerp大学的计算语言学和心理语言学研究中心(Computational Linguistics & Psycholinguistics, CLiPS)开发完成。它可以用来完成爬虫、机器学习、自然语言处理、网络分析和可视化等任务。Pattern还可以从一些熟知的网络服务中挖掘数据。这个项目有完整的文档,并且包含了大量的例子和单元测试。

6. NuPIC ( Numenta Platform for Intelligent Computing)

一个大脑启发式的机器智能平台和基于大脑皮层学习算法的生物神经网络。

★ 3647,γ 987

NuPIC实现了Hierarchical Temporal Memory (HTM)机器学习算法。HTM算法试图以大脑皮层的计算方式来建模,专注于存储和召回空间和时间的模式。NuPIC非常适合模式相关的异常检测。

7. Vowpal Wabbit

Vowpal Wabbit是一种机器学习系统,它在online, hashing, allreduce, reductions, learning2search, active 和 interactive learning等技术上一直处于领先优势。

★ 2949,γ 827

Vowpal Wabbit的目标是对大数据快速建模,并支持并行学习。这个项目由雅虎发起,现在由微软研究院开发。Vowpal Wabbit采用了外部存储学习算法(out-of-core),它已经实现了用1000个计算节点在一小时内训练TB级的特征数据集。

8. aerosolve

一个交互友好的机器学习工具包

★ 2538,γ 245

aerosol与其它的函数包不同,它主要是提供交互友好的调试工具,训练模型的Scala代码,一个用于图像排序的图像内容分析引擎,和一种特征转换语言,用户可以灵活地控制特征。aerosolve采用基于thrift的特征表征,特征按照逻辑被分组后进行变换,或者一次性对所有特征组完成变换。

9. GoLearn

一种Go语言的机器学习工具。

★ 2334,γ 215

GoLearn是使用Go语言开发的机器学习库,开发的活跃度很高。它的目的是为Go语言开发者提供一套完善的、易用的、可自定义的工具包。GoLearn实现了Scikit-learn中常用的fit/predict接口,简化了预测器的生成方法,并实现了交叉验证、训练集/测试集切分等常用函数。

10. Code for Machine Learning for Hackers

Machine Learning for Hackers一书中的代码

★ 2003,γ 1446

这个代码库中的代码都来自O’Reilly出版的Machine Learning for Hackers一书。代码用R语言实现,其依赖了大量R工具包,它的内容包括常见的分类任务、排序和回归,以及主成分分析和多维标度法等统计方法。

注:上榜依据是在Github上搜索“Machine Learning”关键词所返回的结果,按照星星的数量排序,数据搜集时间是2015年12月10日下午1点。

原文作者:Matthew Mayo

原文地址:Top 10 Machine Learning Projects on Github

文章译者:赵屹华,搜狗计算广告工程师,前生物医学工程师,关注推荐算法、机器学习领域。

文章审校:刘帝伟

(责编/周建丁)

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2016-01-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

XNOR.ai要简化数学,让人工智能从云端走进普通设备

来源 | TechCrunch 编译 | 量子位 陈桦 与许多计算机概念类似,在讨论人工智能、机器学习或深度卷积网络时,人们关注的是数学。这些高性能网络的核心是...

24410
来自专栏ATYUN订阅号

Berkeley共享自主研究:人-机组合应用model-free RL,优化无人机实时辅助控制

想象这样一个场景,无人机驾驶员远程操控一架四旋翼飞行器,用机载摄像头进行导航和着陆。不熟练的飞行动态、陌生的地形和网络延迟都会影响这个系统,使得人很难对其进行控...

1075
来自专栏养码场

吆喝科技CTO的纯干货分享:直击A/BTesting和美团推荐技术关键点!

养码场的线上课程,以技术人员为核心的学习、交流、分享社群,全方位服务技术人和技术创业者。这里聚集了众多BAT/美团/京东/滴滴/360/小米/网易等知名互联网公...

1354
来自专栏TEG云端专业号的专栏

全国知识图谱与语义计算大会 - 实体发现与链接比赛总结

一 背景 互联网大数据时代中,随着机器语义理解需求的日益增长,知识图谱,即各类实体、概念及其之间的语义关系,日益成为大数据时代知识表示的主要形态之一,并在学术界...

9657
来自专栏PPV课数据科学社区

【推荐】飞林沙:商品推荐算法&推荐解释

这是今天看到的一篇蛮有新意的讲稿,由于不是一篇完整的论文,所以理解起来稍微有些困难,就顺着写个笔记,仅供参考。 Ref: http://www.wsdm-con...

3045
来自专栏AI研习社

人脸识别哪家强?亚马逊、微软、谷歌等大公司技术对比分析

哪一个人脸识别 API 是最好的?让我们看看亚马逊的 Rekognition、谷歌云 Vision API、IBM 沃森 Visual Recognition ...

2643
来自专栏目标检测和深度学习

Kaggle :第二届 YouTube-8M 视频理解挑战赛

2222
来自专栏人工智能LeadAI

关于Deep Neural Networks for YouTube Recommendations的一些思考和实现

论文 Deep Neural Networks for YouTube Recommendations 来自google的YouTube团队,发表在16年9月的...

9323
来自专栏福利活动清单

腾讯云云智AI资源包重磅推出

OCR文字识别,基于腾讯世界领先的深度学习技术和海量数据,提供卡证、票据类、印刷体、手写体、自定义模板等多种场景和类型的文字识别服务,大大提高信息录入效率、降低...

1965
来自专栏数据和云

嘉年华专访 | 国际上智能运维研究

张圣林,南开大学助理教授,于2017年7月获清华大学工学博士学位(计算机科学与技术专业)并获得清华大学优秀博士学位论文,导师是刘莹老师和裴丹老师。

4103

扫码关注云+社区

领取腾讯云代金券