首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

25个Java机器学习工具&库

本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。...它包括一系列的机器学习算法(分类、回归、聚类、异常检测、概念漂移检测和推荐系统)和评估工具。关联了WEKA项目,MOA也是用Java编写的,其扩展性更强。...3.MEKA项目提供了一个面向多标签学习和评价方法的开源实现。在多标签分类中,我们要预测每个输入实例的多个输出变量。这与“普通”情况下只涉及一个单一目标变量的情形不同。...Deeplearning4j是使用Java和Scala编写的第一个商业级的、开源的、分布式深入学习库。其设计的目的是用于商业环境中,而不是作为一个研究工具。 10....17.JSAT是一个快速入门的机器学习库。该库是我在业余时间开发的,基于GPL3发行的。库中的一部分内容可自主学习,例如所有的代码都是独立的。JSAT没有外部依赖,而且是纯Java编写的。

1.6K80

25个Java机器学习工具库

本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。...它包括一系列的机器学习算法(分类、回归、聚类、异常检测、概念漂移检测和推荐系统)和评估工具。关联了WEKA项目,MOA也是用Java编写的,其扩展性更强。...3.MEKA项目提供了一个面向多标签学习和评价方法的开源实现。在多标签分类中,我们要预测每个输入实例的多个输出变量。这与“普通”情况下只涉及一个单一目标变量的情形不同。...Deeplearning4j是使用Java和Scala编写的第一个商业级的、开源的、分布式深入学习库。其设计的目的是用于商业环境中,而不是作为一个研究工具。 10....17.JSAT是一个快速入门的机器学习库。该库是我在业余时间开发的,基于GPL3发行的。库中的一部分内容可自主学习,例如所有的代码都是独立的。JSAT没有外部依赖,而且是纯Java编写的。 18.

1.8K60
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    25个Java机器学习工具&库

    本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。...它包括一系列的机器学习算法(分类、回归、聚类、异常检测、概念漂移检测和推荐系统)和评估工具。关联了WEKA项目,MOA也是用Java编写的,其扩展性更强。...3.MEKA项目提供了一个面向多标签学习和评价方法的开源实现。在多标签分类中,我们要预测每个输入实例的多个输出变量。这与“普通”情况下只涉及一个单一目标变量的情形不同。...Deeplearning4j是使用Java和Scala编写的第一个商业级的、开源的、分布式深入学习库。其设计的目的是用于商业环境中,而不是作为一个研究工具。 10....17.JSAT是一个快速入门的机器学习库。该库是我在业余时间开发的,基于GPL3发行的。库中的一部分内容可自主学习,例如所有的代码都是独立的。JSAT没有外部依赖,而且是纯Java编写的。 18.

    1.5K80

    ML Mastery 博客文章翻译(二)20220116 更新

    中创建深度学习模型的装袋集成 如何通过深度学习展示自己的基本功 如何使用 ReLU 修复梯度消失问题 如何通过添加噪声来提高深度学习模型的鲁棒性 如何使用数据缩放提高深度学习模型的稳定性和表现 如何利用迁移学习来提高深度学习神经网络的表现...训练深度学习神经网络时如何配置学习率 用于训练深度学习神经网络的损失和损失函数 如何在 Keras 开发深度学习模型集成 神经网络诀窍(书评) 在 Keras 中集成神经网络模型权重(Polyak 平均...如何通过工作实例开发概率的直觉 如何利用概率开发和评估朴素分类器策略 机器学习的信息增益和互信息 贝叶斯信念网络的温和介绍 计算学习理论的温和介绍 使用工作实例开发贝叶斯定理的直觉 对联合概率、边缘概率和条件概率的温和介绍...使用 Weka 加快应用机器学习的进度 如何在 Weka 中更好地理解你的机器学习数据 我开始机器学习时犯的最大错误,以及如何避免 如何在 Weka 中逐步完成二分类项目 案例研究:预测五年内糖尿病的发作...如何获得更多 Weka 机器学习工作台的帮助 如何使用 Weka 处理机器学习数据中的缺失值 如何在 Weka 中运行你的第一个分类器 如何在 Weka 中调整机器学习算法 在 Weka 中为更好的预测使用提升

    4.4K30

    机器分类方法如何用在医学诊断案例——基于R的实现

    决策树的本质是利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。以下就运用决策树算法对原始临床数据进行分析。...2.3 Adaboost Adaboost是一种迭代分类算法,不断地通过加权再抽样改进分类器,每一次迭代时都针对前一个分类器对某些观测值的误分缺陷加以修正,通常是在(放回)抽取样本时对那些误分的观测值增加权重...在每轮迭代时都对这一轮产生的分类器给出错误率,最终结果由各个阶段的分类器的按照错误率加权投票产生。...2.6 随机森林方法 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。...2.7 支持向量机 支持向量机是另一种现代分类方法,用支持向量机脊椎病变临床数据集进行分析基于R的实现代码如下: >library(class)>library(e1071) >modelsvm(class2

    1.6K50

    数据分享|WEKA信贷违约预测报告:用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归|附代码数据

    Weka操作 在package manager中下载LibSVM包,并在classifier模块中选择最优参数选择CVParameterSelection,使用SVM分类算法。...(4)在计算出来的各个特征的各个特征值对数据集D的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。...J48算法 J48流程 (1)使用经过预处理的数据集,使用 CVParameterSelection 中的classifier中的Tree-J48并调整和寻找最佳参数,在test option中选择 Supplied...模型正确率和召回率略微下降, ROI降低为-628800. 因此J48算法中,当使用目前的参数时ROI最大为-621800。...模型正确率和召回率并无波动。因此Simple Logistic算法中,当使用目前的参数时ROI最大为-1223700。

    1.1K00

    数据科学家:那些年,我都学过哪些编程语言…

    而且该课程的重点是,在不使用库的情况下实现学习算法,因此MATLAB与任何专业语言一样出色。 虽然我很推崇自动化工具和便捷型库,但在开始进入数据科学领域时,自己动手这一点也是十分重要的。...至于Octave,虽然开源且能兼容MATLAB代码,但性能却远远不及MATLAB。 ? WEKA 我学习Weka的经历是短暂的。在大学时期,Weka作为我完成模式识别课程作业一种工具。...这些都与我在C ++,Java或Python中遇到的面向对象编程并不相同。 R语言还提供了许多方便的工具,例如data.frames,它能够轻松捕获数据集的特征和需求。...暑期我曾在一家公司实习,该公司用的就是C ++,我猜测公司也许是考虑到传统和商业的结合,因此选择了能够高效执行的代码。 尽管如此,我仍决定使用R语言。在实习结束时,我再将模型和函数转移到C ++。...在获得满意的结果后,通过使用简单的R包用于PCA和支持向量机,我尝试将模型合并到庞大的C ++框架中。libsvm 软件包很适合这种情况,并能提供与支持向量机相关的操作。

    81820

    数据分享|WEKA信贷违约预测报告:用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归

    Weka操作 在package manager中下载LibSVM包,并在classifier模块中选择最优参数选择CVParameterSelection,使用SVM分类算法。...(4)在计算出来的各个特征的各个特征值对数据集D的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。...J48算法 J48流程 (1)使用经过预处理的数据集,使用 CVParameterSelection 中的classifier中的Tree-J48并调整和寻找最佳参数,在test option中选择 Supplied...模型正确率和召回率略微下降, ROI降低为-628800. 因此J48算法中,当使用目前的参数时ROI最大为-621800。...模型正确率和召回率并无波动。因此Simple Logistic算法中,当使用目前的参数时ROI最大为-1223700。

    12800

    【全自动机器学习】ML 工程师屠龙利器,一键接收训练好的模型

    然而,若在街上拉住一位大爷说:我们来讨论一下 SVM 的机制吧,大爷必然挣脱开来大吼:不要耽误我买菜!...一个算法工程师可能需要多年的修炼,才能熟练掌握各个算法的特性,在处理问题时,仍然需要使用各种 tricks,花费大量时间去调整模型,以求达到最好的效果。...Auto-weka 和 auto-sklearn 分别对应了 java 和 python 环境,两者的调用也十分简单,如图 2、3 所示。...于是,问题就转化为优化 controller 的权重,使其能生成子网络的准确率尽可能大。但是,优化 controller 权重时梯度无法直接获得,此时需要借助强化学习方法获得梯度。...在已有的自动机器学习工具中,对搜索空间进行了限制,使得在较小的空间中可以对不太大的数据进行自动算法和超参数选择。

    1.2K71

    数据挖掘10大算法详细介绍

    可以这么说,决策树最好的卖点是他们方便于翻译和解释。他们速度也很快,是种比较流行的算法。输出的结果简单易懂。 哪里可以使用它呢? 在 OpenTox 上可以找到一个很流行的开源 Java实现方法。...在球和桌面的例子中,棍子和最近的红球和蓝球间的距离就是类间间隔(margin)。 SVM 的关键在于,它试图最大化这个类间间隔,使分类的超平面远离红球和蓝球。这样就能降低误分类的可能性。...SVM 属于监督学习。因为开始需要使用一个数据集让 SVM学习这些数据中的类型。只有这样之后 SVM 才有能力对新数据进行分类。 为什么我们要用 SVM 呢?...最好的学习器也被再次赋予权重并加入到联合分类器中,误分类的病人也被赋予权重,这样他们就有比较大的可能性再次被选中,我们会进行过滤和重复。...2 SVM在训练中建立了一个超平面的分类模型。 3 AdaBoost在训练中建立了一个联合的分类模型。 那么 kNN 做了什么?

    2K40

    基于Java的机器学习项目、环境、库...

    它的重点是在关系型数据库中处理数据,例如异常值检测和分类(基于距离函数方法)。它提供了一个迷你GUI、命令行接口和Java API。 库 其实本文列出的每个项目都带有Java API库。...Java-ML Java机器学习库(Java-ML)(http://java-ml.sourceforge.net/)提供了在Java中实现的机器学习算法的集合。...该项目主要关注集群和分类算法,一个流行的应用程序驱动实现是它在推荐系统的协作筛选中使用。还包括在单个节点上运行算法的引用实现。...总结 在这篇文章中,当我们在Java中选择一个用于机器学习的库或平台时,我们已经接触到了大项目名称选项。这些是倍受学习者欢迎的项目,但绝不只这些列出来的。...这是一件很重要的工作,我相信GitHub和SourceForge还有更多的工作要做。 学习者的关键是要认真考虑自己的项目和需求。

    2.3K60

    维度规约(降维)算法在WEKA中应用

    如此,每个连续的部件解释较少的方差,从而从中减少了变量的个数 X, 米,主要组件的数量, ķ。在使用PCA时存在一些挑战。从而从中减少了变量的个数 X, 米,主要组件的数量, ķ。...在使用PCA时存在一些挑战。首先,该算法对数据集中变量的大小敏感,因此建议采用平均中心,而采用相关矩阵X因为它是正常化的。PCA的另一个挑战是它本质上是线性的。...PCA的应用 Weka是数据挖掘任务的机器学习算法集合,它可以直接应用于数据集,也可以从您自己的Java代码中调用.Weka包含数据预处理,分类,回归,聚类,关联规则,可视化,也非常适合开发新的机器学习方案...相关矩阵技术指标 如果我们把它加载到WEKA中,我们将看到数据集的一些基本的描述性统计,包括每个变量(技术指标)的直方图,以及它们的最小值,最大值,平均样本统计量和标准差样本统计量。 ?...在选择属性选项卡中,选择主要组件属性评估器,WEKA将自动选择排序器搜索方法。 ? 点击开始后,WEKA提取前五个主要组件。

    1.5K20

    做股票数据挖掘的一些日志

    后来找到了新西兰的开源项目WEKA,里面的算法封装得非常好,我很欣赏工程师们的代码风格,于是准备从WEKA中把决策树代码挖出来,并且全部加上中文注释。...(这里说明一下,只针对我自己,不排除有想先自己设计出统计学指标,再做挖掘的朋友,只是我这里做的随意了)第三,我对JAVA比较偏爱。...(其实程序可能会比C跑的慢点,但WEKA的程序架构得非常棒,学JAVA的都可以去看看,收获颇丰)。而我们在WEKA调用APRIORI算法,只用将数据离散化就可以了,二元化它会自动做。...具体的相关代码就不发了,自己去找找,在WEKA中是怎么做的数据类型转换,不难找到。 接下来讲述一下我自己的实际操作。...需要注意的是,BM同学要求读入数据要为TXT格式的,他好用C语言读,于是我在这之前使用JAVA的POI扩展包把数据给整理成了TXT格式,后来我们一切对EXCEL的操作都是用POI做的。

    2K50

    3 机器学习入门——决策树之天气预报、鸢尾花

    在实际生活中,我们面对的当然不仅仅是由数字得出的,很多时候是通过决策得出。...决策树是一个巨大的机器学习分支,里面有很多著名的算法如C4.5和最近一些在竞赛中大放异彩的GDBT等,都属于决策树。 到底决策树是什么,我们直接上实例。...OK,我们来使用决策树试试,先试试大名鼎鼎的C4.5分类器,在weka中对应J48。 在trees里找到J48,同样选择10次折叠,点击start。 可以看到正确率在50%。...当数据量变大时,这种类型的在决策树下表现通常会优于线性方程。 当然对于这个案例,通过使用融合梯度提升后的J48,也能让正确率达到70%多。...导入数据,分别使用逻辑回归和J48来跑一下,发现两个都是96%的正确率。 ? ? 这个数据集经过多次尝试,在各个算法上表现比较类似,差距不大,最好的结果是在SVM(支持向量机)上,96.6667%。

    1.6K20

    为啥我敢说Python是数据分析界的扛把子语言?

    首先声明下这篇文字不是卖课的,也不是无脑吹Python,咱只讲事实,认认真真讨论下Python是不是数据分析领域最好的语言。 因为我在知乎上看到非常多人在问这个问题,想必大家是关心的。...3、NASA处理黑洞图片所用的工具是Python,Python在NASA内部被广泛用于航天数据处理分析。 4、Chatgpt算法和后端大规模使用Python,其官方接口就有Python api。...Jupyter最大的特点是代码即写可即运行,其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。...Jupyter还支持安装插件,和VsCode类似。插件类型也很丰富,包括了代码调试、可视化、文本编辑等等。 既然同样是编程工具,那Jupyter和Pycharm、VsCode的使用场景有什么区别呢?...首先,我不需要关注代码的细节,比如申明类型、编译、调试等,因为我只是用来分析处理数据,又不要开发大型软件,运行他个十几年。 其次能用第三方库,就不需要自己去开发工具,能极大地提升数据分析效率。

    19410

    交叉验证的Java weka实现,并保存和重载模型

    我觉得首先有必要简单说说交叉验证,即用只有一个训练集的时候,用一部分数据训练,一部分做测试,当然怎么分配及时不同的方法了。...交叉验证重复k次,每次选择一个子集作为测试集,并将k次的平均交叉验证识别正确率作为结果。 优点:所有的样本都被作为了训练集和测试集,每个样本都被验证一次。10-folder通常被使用。...2)实验过程中没有随机因素会影响实验数据,确保实验过程是可以被复制的。...但LOOCV的缺点则是计算成本高,为需要建立的models数量与总样本数量相同,当总样本数量相当多时,LOOCV在实作上便有困难,除非每次训练model的速度很快,或是可以用平行化计算减少计算所需的时间...Java调用weka实现算法,并保存模型,以及读取。

    94710

    【数据挖掘】详细解释数据挖掘中的 10 大算法(上)

    在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下。...可以这么说,决策树最好的卖点是他们方便于翻译和解释。他们速度也很快,是种比较流行的算法。输出的结果简单易懂。 哪里可以使用它呢? 在 OpenTox 上可以找到一个很流行的开源 Java实现方法。...在球和桌面的例子中,棍子和最近的红球和蓝球间的距离就是类间间隔(margin)。 SVM 的关键在于,它试图最大化这个类间间隔,使分类的超平面远离红球和蓝球。这样就能降低误分类的可能性。...SVM 属于监督学习。因为开始需要使用一个数据集让 SVM学习这些数据中的类型。只有这样之后 SVM 才有能力对新数据进行分类。 为什么我们要用 SVM 呢?...在统计学上,当估算带有无法观测隐藏变量的统计模型参数时,EM 算法不断迭代和优化可以观测数据的似然估计值。 好,稍等让我解释一下… 我不是一个统计学家,所以希望我的简洁表达能正确并能帮助理解。

    1.2K51

    WEKA的使用指南

    我在机缘巧合之下,从一门课程里学到这个工具,其轻便性、用户友好性给我留下了很深的印象,在此广而告之。 01 — WEKA简介 那么问题来了,WEKA是什么? 新西兰秧鸡?...进入探索环境之后,主页是数据预处理选项卡,可以看到选项卡中还有分类、聚类、关联、变量选择和可视化几个。...在预处理界面中,可以选择并打开数据集、选择预处理方法、对数据集做基本的统计、各个变量的展示以及编辑记录和属性。 然而略坑爹的地方是,WEKA默认的数据格式是独有的。...WEKA的不足之处是,算法的专有名词太多,需要去看简介才能理解各个参数的含义;输入输出比较固定,使用上不够灵活,可以自己开发算法接入,但是需要写JAVA。...因此,WEKA比较适用的场景是,知道数据挖掘算法原理但不太会实际操作的统计人员轻松完成算法的实现,以及数据比较干净、使用常规方法即可解决问题懒得写代码的情况。

    2.2K60

    数据挖掘工具R软件与Weka的比较分析

    在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。 R 软件由一组数据操作,计算和图形展示的工具构成。相对其他同类软件,它的特色在于: 1.有效的数据处理和保存机制。...而开发者则可使用Java语言,利用Weka的架构上开发出更多的数据挖掘算法。 读者如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。...在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。...R来自统计界,是一个通用分析统计环境,Weka的起源是在计算机科学,因此专门为机器学习和数据挖掘而设计。在选择分析软件时,你需要仔细考虑你的数据挖掘的目标范围内的各种因素,包括预测潜在部署模型。...所以通常在R中准备好训练的数据(如:提取数据特征……);整理成Weka需要的格式(*.arff);在Weka里做机器学习(如:特征选择、分类……);从Weka的预测结果计算需要的统计量(如:sensitivity

    2.1K90
    领券