专栏首页数据科学与人工智能【机器学习】机器学习的11个开源项目

【机器学习】机器学习的11个开源项目

机器学习是目前数据分析领域的一个热点内容,在平时的学习和生活中经常会用到各种各样的机器学习算法。实际上,基于Python、Java等的很多机器学习算法基本都被前人实现过很多次了。这些算法在网上可以找到很多,然而往往存在很多“脏”或者“乱”的开源代码。

在这样的背景下, InfoWorld近日公布了机器学习领域11个最受欢迎的开源项目,这11个开源项目大多与垃圾邮件过滤、人脸识别、推荐引擎相关。它们大多数基于现今最流行的语言以及平 台,推广以及扩展了机器学习领域的很多重要算法。从中,用户不但可以找到LDA等主题模型,也可以找到HMM等隐马尔科夫模型。这些模型都是应用领域的热点,也是研究者们最需要的。

  Scikit-learn

  Scikit-learn是一个非常强大的Python机器学习工具包。它通过在现有Python的基础上构建了NumPy和Matplotlib,提供了非常便利的数学工具。这个工具包包括了很多简单且高效的工具,很适合用于数据挖掘和数据分析。

  在主页中,可以看到User Guide,这是整个机器学习的索引,其中用户可以学到各种有效的方法。在Reference里,用户可以找到各个类具体的用法索引。

Shogun

  Shogun 是一个基于C++的最古老的机器学习开源库,它创建于1999年。作为一个SWIG库,Shogun可以轻松地嵌入Java、Python、C#等主流处理语言中。它的重点在于大尺度上的内核方法,特别是“支持向量机”的学习工具箱。其中,它包括了大量的线性方法,如LDA、LPM、HMM等等。

Accord Framework/AForge.net

  Accord是AForge.net的扩展,是一个基于.Net的机器学习与信号处理框架。它包括了一系列的对图像和音频的机器学习算法,如人脸检测、SIFT拼接等等。同时,Accord支持移动对象的实时跟踪等功能。它提供了一个从神经网络到决策树系统的机器学习库。

Mahout

  Mahout是一个广为人知的开源 项目,它是Apache Software旗下的一个开源项目,提供了众多的机器学习经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout内包含了聚 类、分类、推荐等很多经典算法,并且提供了很方便的云服务的接口。

MLlib

  MLlib是Apache 自己的Spark和Hadoop机器学习库,它被设计用于大规模高速度地执行MLlib所包含的大部分常见机器学习算法。MLlib是基于Java开发的 项目,同时可以方便地与Python等语言对接。用户可以自己设计针对MLlib编写代码,这是很具有个性化的设计。

H2O

  H2O是0xdata的旗舰产品,是一款核心数据 分析平台。它的一部分是由R语言编写的,另一部分是由Java和Python语言编写的。用户可以部署H2O的R程序安装包,之后就可以在R语言环境下运行了。H2P的算法是面向业务欺诈活着趋势预测的,目前正在新一轮的融资中。

Cloudera Oryx

  Oryx也是由Hadoop所设计的机器学习开源项目,由Cloudera Hadoop Distribution的创造者所提供。Oryx能够让机器学习的模型使用在实时的数据流上,如垃圾邮件过滤等。

GoLearn

  GoLearn是谷歌所构建的Go语言的一体化机器学习库,目标是简单并且可定制。Go语言是谷歌的主打语言,目前使用已经越来越广泛。GoLearn的简单在于数据在库内被加载和处理,因此能够可定制地扩展数据结构以源码。

Weka

  >Weka 是使用Java开发的用户数据挖掘的开源项目。Weka作为一个公开的数据挖掘工作平台,集合了大量能够承担数据挖掘人物的机器学习算法,包括了对数据进 行预处理、分类、回归、聚类等等。同时,Weka实现了对大数据的可视化,通过Java设计的新式交互界面上,实现人与程序的交互。

CUDA-Convnet

  CUDA是我们众所周知的GPU加速套件。而CUDA-Convnet是一个基于GPU加速的神经网络应用程序机器学习库。它使用C++编写,并且使用了NVidia的CUDAGPU处理技术。

  目前,这个项目已经被重组成为CUDA-Convnet2,支持多个GPU和Kepler-generation GPUs. Vuples项目与之类似,使用F#语言编写,并且适用于.Net平台上。

ConvNetJS

  ConvNetJS是一款基于JavaScript的在线深度学习库,它提供了在线的深度学习训练方式。它能够帮助深度学习的初学者更快、更加直观的理解算法,通过一些简单的Demo给用户最直观的解释。

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-12-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 论HTML5的重要性之微软放弃自家视频插件Silverlight将转向HTML5

    论HTML5的重要性 ? 前言:北京时间7月3日上午消息,微软近期正在鼓励网站停止使用该公司的Silverlight技术,转而使用更新的、基于HTML5...

    非著名程序员
  • Java程序员高效开发必备5大工具,你用过几个?

    学习问题欢迎留言或对话框咨询 ▼ 工具用的好,效率不用愁!别看平时一些人开发进度飞快,好像很厉害的样子,也许他只是比你多学了几个工具,才在弯道超了你的车。开发要...

    企鹅号小编
  • 强烈推荐:基于Java反射实现一个 Android ORM 框架

    今天给大家推荐一个不错的开源项目代码,作者利用反射机制实现了数据库的 ORM 框架。希望大家读了之后能够从中学习作者的思路和思想。再重复一遍,学习一下作者的思路...

    非著名程序员
  • 第1章:初识编程

    写在前面 之前答应过不少朋友今年要写个《猫哥极简编程入门》的系列,帮助各位对编程感兴趣的新人和非程序员,快速掌握一些实用的编程技巧,以便快速入门编程以及应付一些...

    企鹅号小编
  • 带你通俗易懂的理解人工智能算法一

    我们所谓的人工智能算法就是一个机器嵌入了这个算法后,这个机器就拥有了人所具有的基本能力,比如观察、思考、学习、创造等,本文要说的就是这个算法。 人工智能算法主要...

    企鹅号小编
  • 贝叶斯学习记录

    这篇文章用于记录学习贝叶斯定理及其应用过程中的记录,希望由浅及深的提供一份自我学习教程。 引子 概率的定义:概率是一个0-1之间的数,代表了我们对某个事实或预测...

    生信宝典
  • Python学习教程 (六)

    作业(三) 使 “作业(二)” 中的程序都能接受命令行参数 import sys sys.argv import optparse 用到的知识点 2.备注...

    生信宝典
  • 机器学习:预测性维修的数据基础

    预测性维修作为工业互联网中的最核心应用,无论是早期的探索者还是新进的工业互联网平台都将它作为主要切入口。当我们谈到应用落地时,可能很多企业会有这样的误解或疑问:...

    企鹅号小编
  • 替代SE16N的超强悍SE16H

    文 | 大话SAP 又到了天气转冷,懒得出门,窝在家里学习新知识的季节。 也许你早就对SE11/SE16/SE16N/SQVI等T-code熟得不能再熟,不过,...

    企鹅号小编
  • 机器学习编程语言之争,Python夺魁

    来自InfoQ 随着科技的发展,拥有高容量、高速度和多样性的大数据已经成为当今时代的主题词。数据科学领域中所采用的机器学习编程语言大相径庭。究竟哪种语言最适合机...

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券