专栏首页人工智能LeadAI进行数据挖掘的 8 个最佳开源工具

进行数据挖掘的 8 个最佳开源工具

正文共1269个字,4图,预计阅读时间8分钟。

数据挖掘,又称为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤,是一个挖掘和分析大量数据并从中提取信息的过程。其中一些应用包括市场细分 - 如识别客户从特定品牌购买特定产品的特征,欺诈检测 - 识别可能导致在线欺诈的交易模式等。在本文中,我们整理了进行数据挖掘的 8 个最佳开源工具。

1、weka

WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

2、Rapid Miner

RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

3、Orange

Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。

4、Knime

KNIME (Konstanz Information Miner) 是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。

5、jHepWork

jHepWork是一套功能完整的面向对象科学数据分析框架。 Jython宏是用来展示一维和二维直方图的数据。该程序包括许多工具,可以用来和二维三维的科学图形进行互动。

6、Apache Mahout

Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头,目前只有一个公共发行版。Mahout 包含许多实现,包括集群、分类、CP 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

7、ELKI

ELKI(Environment for Developing KDD-Applications Supported by Index-Structures)主要用来聚类和找离群点。ELKI是类似于weka的数据挖掘平台,用java编写,有GUI图形界面。可以用来寻找离群点。

8、Rattle

Rattle(易于学习的 R 分析工具)提供数据的统计和可视化摘要,将数据转换成容易建模的形式,从数据中构建无监督和监督模型,以图形方式呈现模型的性能,并得出新的数据集。

原文链接:https://www.jianshu.com/p/aef758dd1fa7

本文分享自微信公众号 - 人工智能LeadAI(atleadai),作者:熵谈电商

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 你知道应聘上一份机器学习的工作需要哪些条件吗?

    目标导向,不谈其他的方向,只谈如何快速拿到数据挖掘的offer。 ? 我选择了公司的校招中比较严格的(top5%)一个jd要求,我们看下如何拿下这个offe...

    用户1332428
  • 使用 R 语言从拉勾网看数据挖掘岗位现状

    因为毕业后想从事数据挖掘相关的职业,但对该行业的需求不太了解,网上资料太多查看花时间且抓不住重点,所以爬取了拉勾网上 900 多条相关的岗位共计 30 万字的职...

    用户1332428
  • 透析 | 卷积神经网络CNN究竟是怎样一步一步工作的?

    视频地址:https://www.youtube.com/embed/FmpDIaiMIeA; 文档参阅:<a href="https://github.com...

    用户1332428
  • 我的数据挖掘之路——从菜鸟到实战

    导读:作者wrchow是浙江大学计算机硕士,通过自己的努力终于拿到了心仪的offer(搜狗Web数据挖掘助理研究员),实现了从事互联网数据挖掘的梦想。他对数据挖...

    机器学习AI算法工程
  • 如何系统的学习 R 语言数据挖掘

    “虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看 svm 的数学证明,EM算法,凸优化… 感觉知识跳跃比较大, 是...

    CDA数据分析师
  • 终极PK:数据分析 VS 数据挖掘 VS 数据科学家

    一直以来有人问:“ 数据分析 VS 数据挖掘 VS 数据科学家,它们到底有什么不同?入行大数据的话该怎么选?” 估计 90% 程序员,包括一些数据相关工作的⼩伙...

    Sam Gor
  • 数据挖掘与数据建模的9大定律(深度长文 收藏细读!)

    数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞...

    CDA数据分析师
  • 如何通过自学,成为数据挖掘“高手”

    1. 读书《Introduction to Data Mining》,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人。另外可以用这本书做参考《Data ...

    华章科技
  • 分享 | 我的数据挖掘之路——从菜鸟到实战

    作者是浙江大学计算机硕士,通过自己的努力终于拿到了心仪的offer(搜狗Web数据挖掘助理研究员),实现了从事互联网数据挖掘的梦 想。他对数据挖掘这个行业的兴趣...

    华章科技
  • PPT | 数据挖掘技术与经典案例分析

    在这个信息爆炸的年代,产生数据的渠道迅速增加,数据库中的数据量也成指数增加,大数据从2012年成为一个热门词汇,它之所以受到人们的关注和谈论,是因为隐藏在它后面...

    华章科技

扫码关注云+社区

领取腾讯云代金券