开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

WEKA:在java中，我如何一次使用一组新的观察值(批量更新)来重新训练我的现有模型，而不是一次训练一个实例？

在Java中，使用WEKA一次使用一组新的观察值（批量更新）来重新训练现有模型，可以按照以下步骤进行操作：

导入WEKA库：首先，需要在Java项目中导入WEKA库，以便使用WEKA的相关功能和类。
加载现有模型：使用WEKA的相关类，如weka.core.SerializationHelper，可以加载已经训练好的模型文件。通过调用SerializationHelper.read(String modelPath)方法，将模型文件加载到内存中。
创建新的观察值集合：准备一组新的观察值，可以将其存储在一个数据集（weka.core.Instances）中。数据集是WEKA中用于存储和处理数据的基本单位。
批量更新模型：使用WEKA的相关类和方法，可以将新的观察值批量更新到现有模型中。具体步骤如下：
- 将新的观察值集合与现有模型进行合并，形成一个新的数据集。
- 使用新的数据集调用WEKA的训练方法，如weka.classifiers.Classifier.buildClassifier(Instances data)，对模型进行重新训练。
- 更新后的模型可以保存到文件中，以便后续使用。

使用更新后的模型：更新后的模型可以用于预测新的观察值。通过调用模型的相关方法，如weka.classifiers.Classifier.classifyInstance(Instance instance)，可以对新的观察值进行分类或回归预测。

需要注意的是，WEKA是一个开源的机器学习和数据挖掘工具，提供了丰富的算法和功能。在使用WEKA进行批量更新模型时，可以根据具体的需求选择合适的算法和方法。

推荐的腾讯云相关产品：腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）提供了丰富的机器学习和数据挖掘服务，可以与WEKA结合使用，实现更强大的模型训练和预测能力。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

机器学习系统简介

classification.png 回归的问题在于为新数据分配连续值，例如给定一年中某个时刻的温度（显然，温度是指定值，由于实际原因是有限的，例如 29.34° ，但回归的想法是输出包含在连续的区间而不是有限的集合中...预测输出标记（而不是连续值）的问题称为分类。典型的例子是在数千只狗和猫的图像数据集上训练的模型，并学习如何分类在这两个类别之一中提供的新照片。...学习模式： ML 系统的另一个重要特征是它们可以在一次性（批量学习）模式或连续增量（在线学习）模式下学习。...在批量学习（也称为离线学习）的情况下，系统使用所有可用数据进行训练：它通常是一个耗时且计算量很大的过程，因此只执行一次。...当你想要重新训练模型时，你必须对所有数据进行重新训练，因此最好只有在我有大量新数据时才能这样做，这实际上可以提高新模型的性能（这将是接受新旧的培训。

7185 0

特征选择（Feature Selection）引言

在这篇文章中，您会了解到特征选择（feature selection），下一次您可以使用同种类型的方法和一个有制可循的清单，以供您在需要选择机器学习模型特征时使用。...包装器方法包装器方法选择一组特征值来协助检索问题，在这些特性中，不同的组合被准备、评估并与其他组合进行比较。通过模型的准确性分配一个分数，建立评估功能组合的预测模型。......应该在不同的数据集上进行特征选择，而不是在训练您的预测模型上进行特征选择......不这样做的效果是您会过度训练您的训练数据。...我在这里展示了部分清单的内容：您有该领域知识吗？如果是的话，构建一组更好的临时“特性”。您的功能相称吗？如果不是，请考虑使其正常化。你怀疑特征的相互依存吗?...以下是一些可以帮助您快速入门的教程：如何在Weka中执行特征选择（无代码）如何使用scikit-learn在Python中执行特征选择如何使用插入符号在R中执行特征选择为了更深入地讨论这个话题，

3.8K6 0

第十八章大规模机器学习

“批量”梯度下降法。“批量”这个词指的是，我们每次都要同时考虑所有的训练样本，我们称之为，一批训练样本。 ? ? 在随机梯度下降法中，我们定义代价函数为一个单一训练实例的代价： ?...随机梯度下降算法在每一次计算之后便更新参数 θ ，而不需要首先将所有的训练集求和，在梯度下降算法还没有完成一次迭代时，随机梯度下降算法便已经走出了很远。...实际上，当你运行随机梯度下降时，和批量梯度下降相比收敛的形式是不同的。随机梯度下降所做的就是连续不断地在某个区域中朝着全局最小值的方向徘徊，而不是直接达到全局最小值。...让我们来计算出这个样本假设的表现有多好（即，计算 cost函数），我要在更新 θ 前来完成这一步。...每次交互事件并不只产生一个数据集，例如，我们一次给用户提供3个物流选项，用户选择2项，我们实际上可以获得3个新的训练实例，因而我们的算法可以一次从3个实例中学习并更新模型。

4772 0

你的神经网络会忘了学到的东西？

然而，大多数人工神经网络在结构上是静态的，依赖于批量学习，在训练时它们被输入很多批独立同分布(IID)数据，并且学习到的参数在部署时被固定，这与我们大脑的学习方式不一样: 我们不是通过一次性处理随机批量的数据来学习...当遇到一个新类时，将使用所有存储的样本和新数据创建一个模拟训练集。所有这些数据都通过网络，之前学习的类的输出存储到下一步，在下一步中更新网络的参数。...量化的训练样本和它们的标签被存储在重播缓冲区中，直到它达到最大容量，达到最大容量后，每次添加一个新的样本，一个来自具有最多实例的类的样本会被随机删除; 这允许模型学习新的类而不至于无限制扩展。...在我们的大脑中，海马体负责“快速学习和获得新的经验” ，而大脑新皮层的任务是“捕捉所有观察到的任务的共同知识”。为了在他们的模型中实现这些，Pham 等人同时使用了概括泛化记忆和片段记忆缓冲器。...在处理一个小批次后，快速权重值被丢弃，并用基础模型的权重重新初始化，以学习下一批数据。 Pham 比较他们的 BCL 技术和其他几个持续学习模型在一系列分类任务中的表现，发现它通常优于其他所有模型。

7472 0

Weka机器学习平台的迷你课程

在您完成这个迷你课程后：您将知道如何通过数据集端到端地工作，并提供一组预测或高性能模型。您将了解Weka机器学习工作平台的使用方法，包括懂得如何探索算法和知道如何设计控制实验。...这个迷你课程不是关于机器学习的教科书。它将把您从一个懂一点机器学习的开发者转变为一个可以使用Weka平台从头到尾地处理一个数据集，并提供一个预测模型或高性能模型的开发者。...通常情况下，您可以通过重调属性来提高机器学习模型的性能。在本课中，您将学习如何使用Weka中的数据过滤器来重调数据。您将可以把数据集的所有属性标准化，并将它们重新标定为一致的0到1范围。...您刚刚在整个训练数据集上训练出最终模型，并将生成的模型保存到文件中。您可以将此模型加载到Weka中，并使用它来预测新数据。...花点时间回头看看你到底走了多远尽管可能是第一次，但您已经发现了如何启动和使用Weka Explorer和Weka实验环境。您加载数据、分析数据并使用数据过滤器和特征选择来准备建模数据。

5.5K6 0

DiffusionDet：用于对象检测的扩散模型

在训练阶段，目标框从真实框扩散到随机分布，模型学会逆转这个噪声过程。在推理中，该模型以渐进的方式将一组随机生成的框细化为输出结果。...因此，我们建议将整个模型分成两部分，图像编码器和检测解码器，其中前者只运行一次以从原始输入图像 x 中提取深度特征表示，后者以此深度特征为条件，而不是原始图像，以逐步细化来自嘈杂框 zt 的框预测。...而稀疏 R-CNN 使用检测解码器仅在前向传播中进行一次 3.3训练在训练过程中，我们首先构建从 ground-truth boxes 到 noisy boxes 的扩散过程，然后训练模型来反转这个过程...直接将这些不需要的框发送到下一个采样迭代不会带来好处，因为它们的分布不是由训练中的框损坏构建的。为了使推理更好地与训练保持一致，我们提出了框更新策略，通过用随机框替换它们来恢复这些不需要的框。...我们使用联合损失 [100] 重新实现所有检测器，除了浅灰色的行（带有 †）由于在 DETR 的原始设置中训练后可学习的查询是固定的，我们提出了一个简单的解决方法来使 DETR 能够处理不同数量的查询

8392 0

使用Java部署训练好的Keras深度学习模型

我一直在探索深度学习的一个用例是使用Python训练Keras模型，然后使用Java产生模型。...一旦你有一个可以部署的模型，你可以将它保存为h5格式并在Python和Java应用程序中使用它。在本教程中，我们使用我过去训练的模型（“预测哪些玩家可能购买新游戏”，模型用了Flask）进行预测。...在本文中，我将展示如何在Java中构建批量和实时预测。 Java安装程序要使用Java部署Keras模型，我们将使用Deeplearing4j库。...对于生产系统，你需要在Jetty端点前设置服务，而不是直接在Web上公开端点。批量预测 Keras模型的另一个用例是批量预测，你可能需要为数百万条记录应用估算值。...结果是模型为每个转换器加载一次，而不是为每个需要预测的记录加载一次。

5.2K4 0

拖拽式机器学习的爱与恨

拖拽式机器学习的雏形很早之前就出现了。Weka 是有新西兰 Waikato 大学开发的数据挖掘软件。Weka 除了提供 Java API 之外，还提供 Weka Explorer 图形界面。...人们在 Weka Explorer 界面上通过鼠标操作就能很方便地加载数据、观察数据特点、训练、预测和效果评估。除了 Weka 免费软件之外，商业软件 Matlab 和 SASS 也提供了图形界面。...我个人觉得，这些软件将自己定位为软件，而不是工具包或者系统。但这些软件确实是最开始有图形界面的机器学习系统。随着最近几年机器学习成为显学，“人人都能使用机器学习” 成为不少人的愿景。...在他们的想象中，数据准备、不同算法训练、不同算法的预测和效果评估都封装在组件中，人们只需要点点鼠标拖拽拖拽组件，就能顺利地使用机器学习。秉承这样的理念，人们开发了不少拖拽式机器学习系统。...如果要实现这点，拖拽式机器学习要提供条件判断组件和循环组件，还需要定义一套特征工程方案和参数变化的标准。这好像是在制定一个新的编程语言了，还不如直接用现有的编程语言接口呢。 4.

1.6K6 0

如何提高深度学习的性能

我决定把我所有的想法都放到这个帖子，而不是再次给别人一一列下来。这些想法不仅对深度学习帮助，对所有机器学习算法也一样。这是一个很大的帖子，你可以存下书签。...例如，您的问题或更多数据的新框架通常会给您带来更多的收益，而不是调整您的最佳性能算法的参数。并不总是，但总的来说。...也许你可以使用验证保持集来获得模型在训练时的性能（对于提前停止有用，请参阅后面的内容）。也许你可以保留一个完全不透明的验证集，在您完成模型选择之后才使用它。...尝试采取现有的模式，并为您的问题重新训练一个新的输入和输出层（转移学习）请记住，更改权重初始化方法与激活函数甚至优化函数密切相关。...下面是使用这个帖子的方法：选择一组选择一个方法尝试从该方法中的一件事比较结果，如果性能有提高就使用重复分享你的结果你是否发现这个帖子有用？你是否获得了一个有提高的方法？

2.5K7 0

独家 | 机器学习模型应用方法综述

例如，在客户流失预测中，当客户呼叫服务时，系统中便可以查找到一个静态统计值，但对于特定事件来说，系统则可以获得一些额外值来重新运行模型。...一次性训练模型在应用前，无需进行连续的多次训练。通常情况下，在数据科学家完成对模型的特定训练之后，便可进行应用，待模型性能无法满足使用要求时，再对其进行更新。...LinkedIn上的帖子利用它们可以进行更为全面的模型训练，而不是做预训练：简单地重新训练模型的权重。...在离线训练中，可以过滤掉高位的点值，并对输入数据进行校正。当需要根据新的数据流不断更新模型训练时，难度系数会高出许多。在线模型训练的另一个挑战是，过往历史信息得不到衰减。...此外，还可以与Postgres的触发器机制相结合来运行数据库，并更新客户流失分数。比如，如果在投诉表中输入了一个新条目，那么让模型实时重新运行的话便很有价值。 ?

1.3K2 0

如何在机器学习竞赛中更胜一筹？

我使用的一些特征选择技术包括：向前（cv或否）——从空模型开始。一次添加一个特征并检查CV精度。如果改进保持变量，否则丢弃。向后（cv或否）——从完整模型开始，逐个删除变量。...在CPU上训练神经网络需要很长时间，而普通的GPU可以使一个简单的神经网络（例如深度学习）快50-70倍。我不喜欢网格搜索。我这样做相当于手动。...这就是为什么你应该专注于任何算法的正确使用，而不是投资于一个。 27.哪些是不平衡数据的最佳机器学习技术？我在这里不做特别的处理。这归功于优化正确的度量（对我来说）。用几句话来解释很难。...作为数据科学家，你应该努力确保有一种方法来测试一些不可观察（测试）数据的结果有多好，而不是想了解为什么你得到的预测类型。...38.你对于使用Weka或R 和Python来学习机器学习有什么看法？我喜欢Weka。它有一个很好的文档——特别是如果你想学习算法。不过我不得不承认，它不像R和Python的一些实现一样有效。

1.8K7 0

【深度干货】2017年深度学习优化算法研究亮点最新综述（附slide下载）

作者提供了一个简单的凸优化问题的例子，其中Adam可以观察到相同的行为。为了解决这个问题，作者提出了一种新的算法AMSGrad，它使用过去平方梯度的最大值而不是指数平均值来更新参数。...相反，我们可以减少模型更新次数，从而通过提高学习速度和缩放batch来加快训练速度。这对于大规模的深度学习有影响，现在可以重新调整现有的训练方案，而不需要调整超参数。...在每次重新启动时，学习速率被初始化为某个值，并且将减少。重要的是，重启是热重启，因为优化不是从头开始，而是从最后一个步骤中模型收敛的参数开始。...他们训练了一个LSTM优化器来在训练期间提供主模型的更新。不幸的是，学习单独的LSTM优化器或即使使用预先训练好的LSTM优化器来优化都会大大增加模型训练的复杂性。...然后，他们从可行更新规则空间中采样更新规则，使用此更新规则来训练模型，并基于测试集上训练模型的性能来更新RNN控制器。完整的程序可以在图3中看到。 ?

9695 0

2吴恩达Meachine-Learing之单变量线性回归(Linear-Regression-with-One-Variable

更进一步来说，在监督学习中我们有一个数据集，这个数据集被称训练集。我将在整个课程中用小写的 m 来表示训练样本的数目。...m 代表训练集中实例的数量 x 代表特征/输入变量 y 代表目标变量/输出变量 (x,y) 代表训练集中的实例 ( x(i),y(i) ) 代表第 i 个观察实例 h 代表学习算法的解决方案或函数也称为假设...我们也不希望编个程序把这些点画出来，然后人工的方法来读出这些点的数值，这很明显不是一个好办法。...实际上，在机器学习中，通常不太会给算法起名字，但这个名字”批量梯度下降”，指的是在梯度下降的每一步中，我们都用到了所有的训练样本，在梯度下降中，在计算微分求导项时，我们需要进行求和运算，所以，在每一个单独的梯度下降中...因此，批量梯度下降法这个名字说明了我们需要考虑所有这一”批”训练样本，而事实上，有时也有其他类型的梯度下降法，不是这种”批量”型的，不考虑整个的训练集，而是每次只关注训练集中的一些小的子集。

4934 0

为什么说GANs是一个绝妙的艺术创作工具？

简而言之，CycleGAN可以帮助你训练一个网络，这个网络可以把一组数据集（输入域）中同样风格的图片转换成另一组数据集（目标域）里纹理的图片。...所以在很多情况下，我用训练集的子集来做推断 ——我的目标不是一般化，我的目标是创造吸引人的艺术。 2.我常常用一些较大的数据集来开始我的初始化训练，然后在较小的数据集上调整他们来取得某种特效。...5.保存所有的实验数据，这样以后可以重现（然而，说实话，即使不能重现一些结果也不是大问题——新的实验带来新的惊喜）。 6.在推论过程中，一些目标图像不会影响生成图像的外观。...第一个模型在灰度级中使用批量标准化的方法，在这两组素描图画之间进行转换。下一个模型对第一个模型的结果进行了升级和着色。注意过度纹理，特别是在修补补丁时。...我有在1024/800/400规格上训练的模型 - 有时从头开始，有时从某一个尺寸开始，然后随着训练的进行而改变它。数据集是十分重要的不要忘记数据集！

6232 0

交叉验证的Java weka实现，并保存和重载模型

我觉得首先有必要简单说说交叉验证，即用只有一个训练集的时候，用一部分数据训练，一部分做测试，当然怎么分配及时不同的方法了。...交叉验证重复k次，每次选择一个子集作为测试集，并将k次的平均交叉验证识别正确率作为结果。优点：所有的样本都被作为了训练集和测试集，每个样本都被验证一次。10-folder通常被使用。...优点： 1）每一回合中几乎所有的样本皆用于训练model，因此最接近母体样本的分布，估测所得的generalization error比较可靠。...但LOOCV的缺点则是计算成本高，为需要建立的models数量与总样本数量相同，当总样本数量相当多时，LOOCV在实作上便有困难，除非每次训练model的速度很快，或是可以用平行化计算减少计算所需的时间...Java调用weka实现算法，并保存模型，以及读取。

8751 0

1 机器学习入门——线性回归第一课

通过我们博学的知识，知道它是一个一元一次方程，当然这个方程比较简单，后续我们会碰到N元N次的。机器学习的过程，就是通过数据来算出方程的过程。下面我们就来开启机器学习之旅。...安装后打开它，你可以使用java -jar weka.jar来打开，它长这个样子： ? 点击explorer ?...这个很好理解，一个属性要么是分类，譬如红、黄、蓝是固定的几个中的一个，不会无限多；要么是数字，譬如1，2，3，4，5。Missing代表缺失的值，譬如一共有5行，而y值缺了2个，就会显示在这里。...右上角有个save，譬如你对数据集做了一些处理，可以将处理后的数据save一下，就成了新的数据集。如果使用的是csv文件，也最好save一下，保存为weka默认的数据格式arff。 OK！...我有值，是想看看模型能不能给出测试集的错误率。在Test options里选择 supplier test set，选择a-test.csv。在刚才的model右键 ?

6197 0

深度学习优化器中的变形金刚：Ranger21

然而，虽然这些发表论文中的大多数都提供了对现有优化算法的增量改进，它们倾向于作为新的优化器而不是可组合算法呈现。因此，许多有价值的改进在最初的论文中很少见。...但是，原始梯度裁剪会影响训练的稳定性，并且找到一个好的阈值需要根据模型深度、批量大小和学习率进行精心调整。 Ranger21使用自适应梯度裁剪来克服这些缺点。...在实验中，当在包含全连接层和/或卷积层的网络上使用它时，我们观察到改进的泛化、更平滑的训练曲线和更快的收敛。...image.png 2.6 Linear learning rate warm-up 最初的 Ranger 优化器基于 Rectified Adam 优化器，该优化器试图修复 Adam 在第一次迭代中由于大量更新而遇到的一些不稳定问题...，将它们呈现为新的优化器，而不是可以组合的模块。

5673 0

【全自动机器学习】ML 工程师屠龙利器，一键接收训练好的模型

而自动机器学习的两大工具，Auto-weka 有可视化界面，只需轻点鼠标就能完成训练工作，auto-sklearn 也仅需数行代码便可构建可用的模型。...操作如此简单，还不用担心训练后的模型不 work，是不是很值得上手试验一番？...操作如此简单，还不用担心训练后的模型不 work，是不是很值得上手试验一番？ ? 图2：auto-weka 可视化界面 ?...如果将 controller 对每一层的结构预测视为一个动作，这样准确率就可以视为一组动作之后的奖赏值，可用 REINFORCE 规则估计出 controller 的梯度，用于更新权重生成下一个子网络。...CNN 结构的实验中，谷歌大脑便使用了 800 个 GPU 来完成训练工作。

1.1K7 1

数据分享|WEKA信贷违约预测报告：用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归|附代码数据

因此直接删除缺失值对应instance，以删除Userinfo_21中的缺失值为例，操作步骤如下：删除后，剩余19200条实例如下，数据集损失的实例数不足5%，认为对后续决策树建立没有影响。...观察发现ThirdParty_ Info_PeriodN_ 属性数据不同维度上的特征的尺度不一致，需要进行标准化处理特征提升按照第一次方法，对数据集进行缺失值删补，步骤省略。...将test和train两个数据集中的target变量从数字型转化为名义型 CART 原理： C4.5中模型是用较为复杂的熵来度量，使用了相对较为复杂的多叉树，只能处理分类不能处理回归。...CART分类树算法每次仅对某个特征的值进行二分，而不是多分，这样CART分类树算法建立起来的是二叉树，而不是多叉树。...CART算法缺点： (1) 无论ID3，C4.5，CART都是选择一个最优的特征做分类决策，但大多数，分类决策不是由某一个特征决定，而是一组特征。

9070 0

机器学习入门系列(1)--机器学习概览(上)

3.1.1 监督学习监督学习，顾名思义就是带有监督的学习，而监督就是体现在训练数据都是有标签的，所有在训练模型的时候可以根据数据的真实标签不断调整模型，从而得到一个性能更好的模型。...异常检测的系统使用正常值训练的，当它碰到一个新实例，它可以判断这个新实例是像正常值还是异常值。 ? 3.1.2.4....也就是如果导入的是持续的数据流，机器学习算法能否在不断采用新数据来训练已经训练好的模型，并且新的模型对新旧数据都还有很好的性能。...对于批量学习算法来说，当获取到新数据的时候，就需要重新重头训练整个数据集，然后更新模型，如果是应用该算法系统，那就相当于需要更新系统，需要停掉旧版本的系统，重新上线新版本的系统。...3.2.2 在线学习批量学习的缺陷和问题可以通过采用在线学习算法来解决。在在线学习中，是用数据实例持续地进行训练，可以一次一个或一次几个实例（称为小批量）。

4232 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭