在多个数据集上训练Google-Cloud-Automl模型_在bert上训练新数据集_使用在不同数据集上训练的cnn模型 - 腾讯云开发者社区

python、object-detection、image-segmentation、multiple-instances、coco

我想通过注册多个数据集来训练detectron2模型我已经从不同的任务中提取了我的注释，现在我有多个数据集，我们需要一起训练它们。 Datasets Folder Task1 -- annotations.json -- image dir Task2 -- annotations.json -- image dir Task3 -- annotations.json -- image dir Task4 -- annotations.json -- image dir 我的问题是，我们是否可以使用多个数据集来训练模型。可以注册多个coco实

浏览 37提问于2021-04-12得票数 1

回答已采纳

1回答

多项式回归中的正则化系数

machine-learning、non-linear-regression

多项式回归中的过拟合，比较训练集的均方误差和验证集的均方误差。我不太理解这张图。在训练模型以学习参数时，我们必须设置λ=0，因为已经选择了λ的值并继续进行培训是没有意义的。，那么，随着λ值的变化，训练错误是如何变化的呢？将数据集划分为有效数据集和训练数据集，在训练集中对模型进行训练，并通过有效集验证验证结果。

浏览 3提问于2021-12-25得票数 1

回答已采纳

1回答

在实际项目中使用转移学习是个好主意吗？

tensorflow、deep-learning、conv-neural-network、transfer-learning

假想如果我的意图是训练一个医学图像数据集，而我选择了一个coco预培训模型。我的怀疑 1既然我选择了医学图像，就没有必要在上训练它，对吗？如果是这样，那么做同样的事情有什么可能的解决方案呢？ 2在预先训练的模型上增加更多的层会把整个模型搞砸吗？有10多个课程和10000个训练数据集？ 3没有从头开始训练，有什么可能的解决方案，比如微调模型？ PS -让我们假设这个场景是基于为业务目的部署模型的。谢谢-

浏览 3提问于2019-11-10得票数 2

3回答

是否可以使用测试数据集来选择模型？

machine-learning

我试图了解测试数据集是否可以用来选择一个经过训练的最终模型。让我们假设这个场景：我首先分割了整个数据集: 70%的训练，30%的测试。然后我拟合了几个模型(假设NN，RandomForest，AdaBoost，.)在训练数据集上进行交叉验证，对超参数进行调优，以获得最佳的列车数据性能。我知道这些分数是有偏见的，因为我调整了这些数据上的超参数。然后，使用测试数据集来获得对无偏数据的真实性能，并选择哪个模型的性能最好。这是使用测试数据集的正确方式吗？一些混淆来自于测试数据集的internet定义：用于对最终模型进行无偏评估的数据样本，适合于培训数据集。似乎它应该只用于获得一个最后训练的模

浏览 0提问于2018-12-27得票数 2

回答已采纳

1回答

我们能否通过python将数据附加到存储在Azure blob存储中的现有csv文件中？

azure-blob-storage、azure-machine-learning-studio

我有一个机器学习模型部署在蔚蓝设计师工作室。我需要通过python代码每天用新的数据重新训练它。我需要将现有的csv数据保存在blob存储中，并将更多的数据添加到现有的csv中，并对其进行再培训。如果我只使用新的数据对模型进行重新培训，那么旧的数据就会丢失，所以我需要通过在现有数据中添加新的数据来重新训练模型。有没有任何方法可以通过python编码来完成呢？我也研究过附加的blob，但是它们只在blob的末尾添加。在文档中，他们提到我们不能更新或添加现有的blob。

浏览 0提问于2021-03-11得票数 2

回答已采纳

1回答

特征选择(Boruta)

r、machine-learning、data-science、feature-selection

我正在做信用风险建模，数据有大量的特性，我正在使用boruta软件包进行特征选择。该包计算成本太高，无法在完整的培训数据集上运行。我想要做的是获取训练数据的一个子集(比如20-30%)，并在该子集数据上运行boruta包，并获得重要的特性。但是当我使用随机森林来训练数据时，我也使用了完整的数据集。我的问题是，只在一部分训练数据上选择特征，然后在整个训练数据上建立模型，这是否正确？

浏览 2提问于2017-05-03得票数 0

回答已采纳

2回答

使用多个股票交易记录的数据集的强化学习？

python-3.x、tensorflow、reinforcement-learning、stocks、openai-gym

这是一个一般性的问题，也许有人可以给我指出正确的方向。我正在使用Python3.6/Tensorflow进行强化学习，并且我已经找到/调整了我自己的模型，以基于特定股票的历史数据进行训练。我的问题是，有没有可能在不止一个股票的数据集上训练这个模型？我读过的每一篇关于时间序列预测和RL的机器学习文章都使用一个数据集进行训练和测试，但我的目标是在一堆不同价格的报价器上训练一个模型，希望该模型可以识别相似的价格模式，而不管价格或报价器，这样我就可以将训练好的模型应用到新的数据集上，它就会工作。现在，它在一个报价器上训练，它是价格，但当我试图添加一个新的数据集来进行额外的训练时，它的表现很糟糕，

浏览 24提问于2018-12-30得票数 1

2回答

训练精度很高，验证精度很高，但测试集的精度很低。

machine-learning、keras、deep-learning、computer-vision、conv-neural-network

我已经将数据集(大约28K图像)划分为75%的训练集和25%的测试集。然后，我随机抽取了15%的培训集和15%的测试集来创建验证集。目标是将图像分为两类。精确的图像样本不能共享。但它和附件中的那个相似。我使用这个模型:带有imagenet权重的VGG19，最后两层，可训练的，以及4个密集的层。我还使用ImageDataGenerator来增强图像。对该模型进行了30个历次的训练，发现训练精度为95%，验证精度为96%，在测试数据集上训练后，仅下降到75%。我已经尝试了正规化和辍学，以解决过度适应，如果它是痛苦。我还做了一件事，看看如果我使用测试集作为验证集并在同一个测试集上测试模型会发生什么

浏览 3提问于2019-01-16得票数 2

回答已采纳

1回答

理解机器学习的交叉验证

python、validation、data-science、cross-validation

下列有关交叉验证的内容是否正确？：将训练数据分成不同的组，除一个训练数据集外，所有训练数据集都用于训练模型。一旦对模型进行了训练，就会使用“遗漏”训练数据来执行超参数调优。一旦选择了最优的超参数，将测试数据应用到模型中，给出一个结果，然后将其与经历了类似过程但训练数据集组合不同的其他模型进行比较。在此基础上，选择了测试数据最优的模型。

浏览 1提问于2020-09-21得票数 0

回答已采纳

2回答

用测试样本来比较算法可以吗？

machine-learning、scikit-learn、sampling

我正在做一个小项目，我的数据集有6k行和大约300个特性，有一个简单的二进制结果。因为我还在学习ML，所以我想尝试所有我能找到并比较结果的算法。正如我在教程中所读的，我将我的数据集分成一个训练样本(80%)和一个测试样本(20%)，然后用交叉验证(5倍)训练我的算法。我的计划是以这种方式训练我的所有模型，然后在测试样本上衡量它们的性能，以选择最佳的算法。这会导致过度适应吗？如果是这样的话，由于我无法比较model_selection.GridSearchCV内部的几种模型，我如何才能防止它过度适应呢？

浏览 0提问于2019-04-21得票数 3

回答已采纳

1回答

机器学习中的堆叠建模建议

machine-learning、predictive-modeling、unsupervised-learning、supervised-learning

我已经在训练数据集上建立了几个模型，我对结果不满意，我希望把它们结合在一起，生成一个新的模型，所以我的想法是，因为我已经有了现有模型的结果，我想在原始特征数据集之上创建一个新的数据集，将现有模型结果作为单独的特性，应用聚类来过滤原始数据集中的一些数据，并希望在所有相同的模型之间训练模型，并获得结果，这会被称为叠加建模吗？

浏览 0提问于2019-10-18得票数 3

回答已采纳

1回答

如何在不重新启动笔记本的情况下清除jupyter内存

python、memory、jupyter

本文采用三维卷积神经网络进行训练，输入256×256图像，22通道，5幅图像，采用8x8滑动窗口，90°旋转数据增强。输入的大小是(262144,22,8,8,5)。网络的输入是一个更大的10240x10240图像的块，所以我需要对模型进行多次训练，以便包含我的整个数据集。我正在使用60 be的RAM，我的计划是：加载一个瓷砖的输入张量。训练模型保存模型清除jupyter内存而不关闭笔记本加载模型加载下一个平铺的输入张量继续训练模型保存模型清除内存和重复我不能连续加载不同的块，否则我会得到一个MemoryError。我知道使

浏览 1提问于2019-04-05得票数 1

回答已采纳

1回答

在多层感知器中进行交叉验证时，我要初始化哪些模型？

neural-network、cross-validation、training、mnist

因此，据我所知，交叉验证是用来确定最佳模型的。我知道一旦我们确定了最好的模型，我们就会在整个数据集上对它进行训练。我应该使用交叉验证的多层感知器，可以分类MNIST数据集。我似乎不明白交叉验证如何适合训练模型。假设我使用的是5倍交叉验证，这意味着我必须制作5种不同的模型，但是，如何进行这些单独模型的培训呢？特别是，我有以下问题：这些个体模型的训练是否会像往常一样(反向传播)？我要用什么来初始化每个模型？(随机权重？) 在完成交叉验证之后，我现在有了最好的模型(比如B)，在整个数据集上训练这个模型意味着什么？(这是否意味着，我与B一起初始化了在整个数据集上训练的新模型的权重)。

浏览 0提问于2018-09-29得票数 1

回答已采纳

2回答

在k折叠简历之后下一步是什么？

machine-learning、cross-validation、training

我偶然看到了https://www.youtube.com/watch?v=wjILv3-UGM8关于k折叠交叉验证(CV)的视频讲座。视频讲座中给出的算法如下：对于k= 1:5的列车，除k得到模型外，M_{\tilde{k}}在k上的计算精度为A_k端，计算最终交叉验证精度：A = > \frac{1}{5}\sum_{k=1}^5 A_k 这对我来说是很清楚的。这里我猜M只是一种单一类型的ML算法。然而，在时间戳6:35时，演讲者提出了这样一个问题:我们如何处理所有5种不同的模型？根据他的说法，我们要么把所有的模型结合起来，并在此基础上做出决定，要么从5个模型中选出最好的模型。这句

浏览 0提问于2020-10-23得票数 3

回答已采纳

1回答

过度拟合训练数据，但仍在改进测试数据

neural-network、spacy、bert-language-model

我的机器学习模型在很大程度上超过了训练数据，但在测试数据上仍然表现得很好。当使用神经网络方法时，每次迭代都会略微增加测试集上的精度，但会大大提高训练集上的精度(过拟合)。在使用带有CNN架构的spacy时，这个问题得到了很好的演示，我得到了以下结果 ITER LOSS P R F TF 0 29.305 0.733 0.342 0.466 0.525 1 10.410 0.811 0.443 0.573 0.650 2 4.361 0.722 0.548 0.62

浏览 28提问于2019-11-08得票数 1

2回答

为什么需要k倍交叉验证？

machine-learning、cross-validation

我使用k-折叠交叉验证，但不明白它的目的。在分割训练和测试数据集中的数据集之前，通常会对数据集的条目进行随机化。给定训练数据集，进行k次交叉验证，目的是预先估计模型的性能。在随机化的情况下，在交叉验证的循环中，不太可能出现从一次运行到下一次的戏剧性变化。最多可以观察到一些正常的波动。考虑到交叉验证内部的性能，交叉验证回答了哪些问题？假设表现不佳，是否意味着我们应该放弃训练模式？如果整个模型的训练时间或其他资源都很昂贵，我就能理解k折叠交叉验证的目的。在这种情况下，将训练集分割到进行验证的k个子集中，可能会为模型的性能提供预测。考虑到即使在大数据上，对整个训练集进行模型拟合是以可接受的时间复

浏览 0提问于2022-03-05得票数 10

1回答

如何对Weka中的训练和测试数据集进行分类

machine-learning、classification、random-forest、weka、training-data

我正在使用Weka软件对模型进行分类。我对使用训练和测试数据集分区感到困惑。我将整个数据集的60%划分为训练数据集，并将其保存到我的硬盘上，将40%的数据用作测试数据集，并将这些数据保存到另一个文件中。我使用的数据是不平衡的数据。因此，我在我的训练数据集中应用了SMOTE。之后，在Weka的分类选项卡中，我从Test options中选择了Use training set选项，并使用随机森林分类器对训练数据集进行分类。在获得结果之后，我从Test options中选择了Supplied test set选项，并从硬盘加载我的测试数据集，然后再次运行分类器。我试图找到关于如何在Weka中加载

浏览 39提问于2021-10-21得票数 0

回答已采纳

1回答

在培训最终模型时，我应该使用验证数据和val_loss吗？

machine-learning、neural-network、keras、machine-learning-model、cross-validation

我正在训练一种利用early_stopping来防止过度拟合的角膜模型。这要求我预留一个验证数据集。我的任务要求我将我的训练和验证按时间分开，这样我的验证集中的所有样本都会在我的训练集的时间点之后发生。我面临的挑战是，我验证中的示例(从定义上说，是时间上的最新示例)对于我的预测任务非常重要，我想用它们来训练最终的模型。从我所看到的来看，在传统的训练/测试阶段决定了模型配置之后，一般建议在所有可用的数据上训练一个最终的模型(将发布到生产中)(参见这里)。但是，如果我使用所有的数据来训练最终的模型，我就不能再利用early_stopping了，因为我将没有任何验证集(它将用于培训)。我可以

浏览 0提问于2022-09-03得票数 3

回答已采纳

2回答

在对测试数据进行最终评估后删除特征

machine-learning、feature-selection、random-forest、overfitting

请您告诉我，如果我正在进行统计或机器学习的正常操作在这个过程中？我想从y1变量估计气象变量{x_1, ..., x_{10}}。我使用来自不同气象站的数据。我保留了一些气象站作为测试地点/数据。我做特征选择和超参数调优与交叉验证的训练数据.我的模型是随机森林(RF)和其他两个基于树的模型。在我在测试现场评估我的模型之前，我对保留其中一个特性--气象站的海拔，x_{10} --持怀疑态度。这是一个静态特性，在与一个站点相关的所有数据行中都是存在/相同的。了解一点射频，让我担心这个模型将使用它作为一种"site_id“，并可能过分适应这一功能。如果我使用线性/非线性回归模型，我不会担

浏览 0提问于2020-12-29得票数 7

回答已采纳

1回答

timeGAN模式再培训

time-series、gan

我正在使用timeGAN从ydata-合成回购，现在的问题是重新培训模型。假设我们已经根据某个数据集训练了一个模型，比如synth1。现在，我们有了新的数据集，它具有与以前的数据相似的数据特征。我想知道ydata-synthetic包是否支持加载预先训练过的synth1模型(在泡菜文件中)，然后重新训练到synth2？我试过先加载模型，然后像5期一样进行模型训练。我认为，这5个时代不应显著改变模型，但它显示出非常不同的分布。

浏览 0提问于2023-05-24得票数 1

1回答

从整个训练集训练CNN和从训练集子集训练到整个训练集的训练有什么区别？

neural-network、conv-neural-network、image-segmentation、training-data、gradient-descent

我正致力于在数据集上训练一个分段网络。目前有两项培训战略：从零开始对整个训练集(40k级，180 k级)进行训练。在整个训练集的10%上训练模型。收敛后(30k步)，继续对整个训练集(10k步)进行模型训练。以作为损失函数，在V网体系结构()中，方法2训练的模型总是优于方法1，前者可以达到0.735，后者只能达到0.71。顺便说一句，我的U-net模型是用TensorFlow实现的，并在NVidia GTX 1080Ti上进行了训练。有人能给出一些解释或推荐信吗。谢谢!

浏览 0提问于2017-07-07得票数 0

回答已采纳

1回答

文本和波束搜索解码器给出所有结果

tensorflow、textsum

我一直在用二进制数据和千兆字数据测试textsum，训练模型并进行测试。波束搜索解码器给我所有的'UNK‘结果，包括一组数据和模型。我使用的是默认参数设置。我首先更改了data.py和batch_reader.py中的数据接口，以便从gigaword数据集中读取和解析文章和摘要。我在大约170万个文档上训练了一个具有超过90K个小批次的模型。然后我在不同的测试集上测试了该模型，但它返回了所有结果。然后，我使用textsum代码附带的二进制数据来训练一个小模型，该模型的小批次少于1k。我对相同的二进制数据进行了测试。它给出了解码文件中除少数'for‘和'.’之外的所有

浏览 0提问于2016-09-16得票数 4

1回答

如何对交叉验证方法中的参数进行初始化，并利用该方法进行训练和评价，得到最终的模型。

machine-learning、cross-validation

正如我所了解的cross-validation算法，从web上的大多数文章中，有各种各样的cross-validation方法。在这里，我想澄清一下k折叠交叉验证技术。在k-折叠交叉验证算法中，我们可以将训练集分割成k个不重叠的折叠。当我们将训练数据分解成k个折叠时，我们必须在k个迭代中对模型进行训练。因此，在每次迭代中，我们用(k-1)折叠来训练，用保持折叠来验证。在每一次分裂中，我们都可以计算出模型所需的度量。最后，我们可以通过所有迭代的平均分数来报告训练误差。但是，最终训练的模型是什么？这些文章中的一些观点对我来说不太清楚？我应该在每次迭代中启动模型的参数吗？我问这个问

浏览 2提问于2022-07-26得票数 0

2回答

为什么超参数调优发生在验证数据集上，而不是在一开始？

machine-learning、deep-learning、neural-network、hyperparameter-tuning、hyperparameter

尽管做了/使用过几次，但我仍然对使用验证集进行超参数调优感到有点困惑。据我所知，我选择一个模型，对训练数据进行训练，对训练数据进行性能评估，然后对验证数据进行超参数整定评估模型性能，然后选择最佳模型并对测试数据进行测试。为了做到这一点，我基本上需要随机选择一个模型来训练数据。我不明白的是，我不知道哪一种模式在一开始会是最好的。假设我认为神经网络和随机森林可能对我的问题有用。那么，为什么我不开始搜索一个一般的，例如，神经网络体系结构，随机森林体系结构，并从一开始，评估哪一个模型是最好的一小部分数据变化的所有超参数无论如何。基本上为什么要选择一个基于人的“猜测”来做训练，然后在验证阶段进行超

浏览 0提问于2022-05-28得票数 0

1回答

对于严重的缺失，对随机森林的可用子集的归责与训练有什么好处？

random-forest、prediction、missing-data、imputation

我想在一个数据集上训练一个随机森林模型。我知道“标准方法”，我们将丢失的数据归算在训练集中，使用相同的估算规则对测试集进行计算，然后在所估算的训练集上训练随机森林模型，并使用相同的模型对测试集进行预测(可能需要多次估算)。我想要理解的是与以下方法的不同之处，我想使用该方法：根据缺失的模式对数据集进行子集。为每一种缺失的模式训练随机森林模型。使用对缺失模式A进行训练的随机森林模型来预测缺少模式A的测试集中的数据。使用在模式B上训练的模型来预测模式B的测试集的数据，等。这个方法的名称是什么？这两种方法的统计优缺点是什么？如果有人能给我介绍一些关于第二种方法的文献，或者两种方法的比较，我将非常

浏览 3提问于2020-04-12得票数 1

5回答

是否总是更好地使用整个数据集来训练最终模型？

machine-learning、dataset、training、accuracy

在对机器学习模型进行训练、验证和测试之后，一种常用的技术是使用完整的数据集(包括测试子集)来训练最终模型，以便将其部署到产品上。我的问题是:这样做是否总是为了最好？如果表演真的变坏了呢？例如，让我们假设模型在分类测试子集时得分在65%左右。这可能意味着要么模型训练不够，要么测试子集由异常值组成。在后一种情况下，使用它们来训练最终模型会降低其性能，并且只有在部署它之后才会发现。重新表述我最初的问题：如果你曾经对模型进行过一次演示，比如在一次昂贵的火箭实验中将其部署在嵌入式电子设备上，那么你会相信一个在最后一步使用测试子集重新训练过的模型，而没有重新测试它的新性能吗？

浏览 0提问于2018-06-12得票数 53

1回答

罕见事件训练后支持向量机性能差

machine-learning、classification、svm、matlab、class-imbalance

我发现加权支持向量机是一种处理类不平衡问题的分类方法。我的数据集与罕见事件(标记为1的少数类)和多数类(标签为0)高度不平衡。因此，我用分层交叉验证技术实现了监督分类加权svm技术，因为这些技术能够处理类的不平衡。我为C参数(boxconstraint)添加了额外的调优。训练采用5倍交叉验证方法进行.该方法在训练集上效果良好。我在训练后表现很好。这我可以说是因为通过观察训练后的混乱矩阵。 cmMatrix = 1443 27 0 30 一般建议使用优化的超参数进行再训练.因此，我在整个数据集上再次运行了经过训练的模型(重

浏览 0提问于2018-07-11得票数 1

回答已采纳

1回答

迁移学习中嵌入的训练与测试

tensorflow、deep-learning、neural-network、embedding、transfer-learning

我正在做转移学习与谷歌音频嵌入。根据文件，嵌入层不包括最终的非线性激活，因此嵌入值是预激活的。我想用嵌入数据在这些嵌入层上训练和测试一个新的模型。我计划做以下工作从字节字符串到张量的嵌入，创建了新的密集layers.Convert。将这些嵌入分割成训练、测试和拆分数据集。将这些张量输入到新的中，并使用验证数据集和测试数据集测试模型。我对这个实现有两种混淆。正在使用嵌入作为新层的输入，足以进行迁移学习吗？我在一些传输学习实现中看到，他们将预先训练过的权重加载到新模型中，并冻结涉及这些权重的层。但是在这些实现中，他们使用新的数据进行训练，而不是从预先训练的模型中嵌入数据。我搞不懂它是如

浏览 0提问于2022-03-27得票数 -1

1回答

如何将字符串转换为已创建torchtext.data.Field的张量？

pytorch、torchtext

所以我完成了一个带有build_vocab的torchtext.data.Field。我已经在数据集上训练了我的模型。如何使用它将原始字符串转换为张量，以便模型能够进行预测？

浏览 51提问于2020-10-21得票数 0

1回答

调整svm和cart超参数

r、decision-trees、svm、hyperparameter-tuning

我试图用e1071 R软件包的but ()函数来优化支持向量机和CART的超参数，但我有一个疑问。我应该调整训练数据上的参数，在训练数据上拟合模型，然后在测试数据上测试它，还是可以避免第二步？

浏览 0提问于2018-10-05得票数 1

回答已采纳

2回答

特征选择和交叉验证

statistics、machine-learning、feature-extraction、feature-selection、cross-validation

我想训练一个回归模型，为了做到这一点，我使用随机森林模型。然而，我也需要进行特征选择，因为我的数据集中有太多的特征，我担心如果我使用了所有的特征，我就会过度拟合。为了评估我的模型的性能，我还执行了5折交叉验证，我对以下两种方法的问题是正确的，为什么？ 1-如果我将数据分成两半，在前半部分进行特征选择，并使用这些选择的特征在剩余的一半上进行5折叠交叉验证( CV ) (在这种情况下，5 CV将使用完全相同的选择特征)。 2-执行以下步骤： 1-将数据分成4/5用于训练，1/5用于测试2-将此训练数据(完整数据的4/5 )分成两半: a-)在前半部分训练模型并使用训练后的模型进行特征选择。b-)使

浏览 1提问于2013-10-29得票数 5

1回答

为什么我需要在转移学习中接受训练。

machine-learning、deep-learning、classification、vgg-net、transfer-learning

我正在用一些预先训练过的模型(vgg16，vgg19，…)学习迁移学习。，我不知道为什么我需要加载预先训练的重量来训练我自己的数据集。我可以理解数据集中的类是否包含在预先训练过的模型所用的数据集中。例如，VGG模型在Imagenet数据集中使用1000个类进行训练，而我的模型是对图像集中的猫狗进行分类。但在这里，我的数据集中的类不在此数据集中。那么，训练前的体重有什么帮助呢？

浏览 0提问于2019-01-22得票数 2

回答已采纳

2回答

我应该将唯一的数据集拆分到一个培训和测试中，还是可以将其中的全部用于回归问题？

regression、data-science、train-test-split

在Kaggle比赛中，我们有一个训练和测试数据集。因此，我们通常在训练数据集上开发一个模型，并使用该算法所看不到的测试数据集对其进行评估。我想知道，如果只给我们一个数据集而没有任何测试数据集，那么验证回归问题的最佳方法是什么。我认为可能有两种方法：在第一步中，在导入数据集之后，将其转换为训练和测试数据集，使用这种方法，算法直到最后一步才能看到测试集。经过预处理和特征工程，我们可以在训练数据集上使用交叉验证技术，或者使用训练测试分割来提高模型的误差。最后，模型的质量可以通过看不见的数据进行检验。也看到，对于回归问题，一些数据科学家使用整个数据集进行测试和验证，我的意思是他们同时使用所有的数据

浏览 1提问于2020-09-04得票数 0

1回答

极随机验证损失/准确性

keras、tensorflow、image-segmentation

我正在进行卫星数据方面的培训。由于数据中的类分布极不均衡，因此本文采用随机多数欠采样的方法对神经网络进行训练，人为地平衡了每个班的训练样本数。在验证过程中，我不以任何方式对数据进行重采样。 📷 📷 在上面的图表中，橙色是训练的表现，蓝色是验证。验证精度和损失值比训练精度和损失大得多。即使训练正确率在90%左右，验证精度在某一时间点甚至达到0.2%。为什么验证指标波动得很厉害，而训练指标却保持相当恒定？关于模型/数据的一些补充资料：我用U网模型将卫星图像分割成三个土地覆盖类别。与原论文相比，U网模型在每一层的滤波器数只有原来的一半，在每次卷积后和激活之前，我都采用批归一化。该模型使用带有初始

浏览 0提问于2020-08-31得票数 1

1回答

如果一个深度学习模型以前“看到”过相同的测试图像，那么它的性能会受到影响吗？

python、performance、pytorch、artificial-intelligence、yolo

我正在处理用于对象检测任务的YOLOv3模型。我正在使用为COCO数据集生成的预先训练过的权重，但是，对于我正在处理的问题，我有自己的数据。据我所知，使用这些经过训练的权重作为我自己的模型的起点，一旦在一个完全不同的数据集上进行训练，它不应该对模型的性能产生任何影响(对吗？) 我的问题是:如果我对它进行多次训练，每次在相同的测试集上测试它，该模型会给出“诚实”的结果吗?或者它会有更好的性能，因为它在早期的实验中已经暴露在这些测试图像中了吗？我听人说过“模型已经看到了数据”，这适用于我的情况吗？

浏览 3提问于2022-03-24得票数 0

2回答

是否可以在一个数据集上训练CNN，并在另一个具有不同类的数据集上进行测试？

tensorflow、keras、deep-learning、dataset、conv-neural-network

我是深度学习的新手，我正在做一项使用CNN的研究。我需要在图像(地标图像)的数据集上训练CNN模型，并使用不同的数据集(地标图像)测试相同的模型。动机之一是看到模型的泛化能力。但问题是:由于用于训练和测试的数据集不相同，因此类也不相同！也可能是类别的数量，这意味着在测试数据集上做出的预测是不值得信任的(因为输出层的权重是基于属于训练数据集的不同类别计算的)。有没有办法在不影响测试准确性的情况下评估不同数据集上的模型？

浏览 4提问于2019-01-23得票数 1

2回答

在使用sklearn预处理标度训练模型后，如何处理新样本？

scikit-learn

假设我有一个用于监督机器学习任务的数据集X和标签Y。假设X有10个特征和1,000个样本，我认为使用sklearn.preprocessing.scale缩放我的数据是合适的。执行此操作后，我训练我的模型。我现在希望将其用于新数据的模型，因此我收集了X的10个特征的新样本，并希望使用我训练的模型对此样本进行分类。在尝试分类之前，有没有一种简单的方法可以将在训练模型之前在X上执行的相同缩放应用到这个新样本？如果不是，唯一的解决方案是在缩放之前保留X的副本，并将我的新样本添加到此数据中，然后缩放此数据集，并在通过此过程缩放后尝试对新样本进行分类吗？

浏览 4提问于2018-08-12得票数 3

2回答

处理一个显然不可分离的数据集

machine-learning、domain-adaptation

我正在尝试构建一个模型/一套模型来预测一个二进制目标。模型的具体细节并不重要，但只需说一句，我已经尝试了六种不同类型的模型，它们的结果都是相当的。通过对训练数据的不同子集的预测，可以看出，某些特征子集对大约30%的数据很重要，而对于其余70%的数据来说，不同的子集很重要。有训练数据/持久化集。当目标已知时，这种分离非常容易检测(使用subset1运行一个模型，用subset2运行另一个模型，找到一个模型比另一个模型做得更好的子集)。显然，这在测试数据中是不可能的，因为在那里不知道目标。数据中显然有两个区域(至少)彼此之间有很大的不同，因为在整个数据集上训练的模型比在每个区域上训练的单独模型

浏览 0提问于2016-04-20得票数 3

1回答

如何在机器学习中使用不同的数据集测试我的模型

python、python-3.x、machine-learning、scikit-learn、training-data

我是机器学习的新手，我正在使用CountVectorizer模型创建一个小项目。我将我的数据拆分到80% -20%。80%用于训练模型，20%用于测试模型。我的模型可以在20%的测试数据上正常运行，但是我可以用来在类似于训练数据集的不同数据集上测试我的模型吗？我使用joblib来转储和加载我的模型。 from joblib import dump, load dump(pipe, filename) loaded_model = load('filename') 我的问题是如何使用不同的数据集直接测试我的模型？

浏览 3提问于2020-07-14得票数 0

1回答

模型再培训

machine-learning、predictive-modeling、random-forest、decision-trees、data-science-model

我用RandomForestRegressor()训练我的模型，但现在我的训练数据不断更新。因此，我必须用所有的火车数据集，即过去和新的数据来训练我的模型，或者我可以直接用新的数据来训练我的模型吗？但是，如果我只使用新的数据来训练模型，它是否会保留现有数据中的模式？

浏览 0提问于2020-11-27得票数 1

1回答

目标检测模型中超参数与训练集的关系

deep-learning、object-detection、hyperparameter-tuning

我有两个对象检测模型的实例。这两种模式之间唯一的区别是所使用的培训数据：第一个模型是用一个小的训练集来训练的。第二个模型是在比第一个模型更大的训练集上训练的。对第一个模型进行了以下超参数的培训：迭代次数:250 k 批次大小: 10 学习速率:150 k迭代后，升温到0.001，下降到0.0002。因为第二个模型有更多的训练数据，所以我假设我需要稍微修改一下超参数。因此，我尝试在以下超级参数上训练第二个模型：迭代次数:600 k 批次大小: 10 学习速率:400 k迭代后升温至0.001，下降至0.0002。当我在测试集上测量两个模型的mAP时，第一个模型的性能大大优于第二个模

浏览 0提问于2020-02-05得票数 1

回答已采纳

1回答

tfrecord和瓶颈有什么不同？

python、tensorflow、deep-learning、classification、pre-trained-model

我一直在使用inception_v4和inception_resnet_v2等模型研究迁移学习。发现一些使用瓶颈的项目和一些使用tfrecords来存储训练图像的项目。当使用这两种方法用相同的数据重新训练inception_v4模型时，瓶颈给出了95%的准确率，而tfrecord只给出了75%。但是，所有的新项目似乎都使用tfrecords作为数据和.ckpt格式来存储模型。有人能给我解释一下在哪种情况下有什么区别，哪一个更好吗？

浏览 7提问于2019-01-29得票数 0

回答已采纳

1回答

经过训练的模型在整个数据集上表现更差。

machine-learning、deep-learning、dataset、image-classification、pytorch

我使用pytorch作为训练框架和官方的示例，用我的自定义数据集训练图像分类模型。我的自定义数据集有两个不同的标签(好的和坏的)，以及100多万张图像。我将数据集划分为训练集(80%)、val集(10%)和测试集(10%)。我的模型在训练阶段平均获得99%的训练acc，在验证阶段获得近99%的val acc。在测试阶段，模型得到99%的测试结果。然而，当我使用我的模型来评估整个数据集(数据集中的所有图像)时，acc只得到90%，这是相当奇怪的，因为我的模型在训练阶段更新了它的参数。该模型应能达到较高的精度，但在对整个数据集进行评价时，只能得到90%的acc。我想知道这是否正常或任何

浏览 0提问于2021-09-24得票数 1

回答已采纳

1回答

亚马逊SageMaker:使用S3酸洗模型，而不是托管在sagemaker上

python、amazon-web-services、scikit-learn、xgboost、amazon-sagemaker

我正在处理一个我必须使用亚马逊SageMaker笔记本实例的用例。Amazon SM资源充满了适用于单个模型的材料，即您在NB实例上本地执行您的操作，然后将该模型部署为端点。另一方面，我的用例有多个客户的多个模型，这需要自动化。即，一旦客户上传了文件，就需要自动创建和存储模型。当前的方法是通过lambda自动化SageMaker实例，以便在关闭实例之前提取训练数据、训练数据并将模型保存回S3。我的问题是，这是正确的方法吗？或者，我是否应该为每个客户的每个模型创建一个端点？不知何故，由于数据大小将会很小，而我又是第一次使用SageMaker，因此在S3中保存模型比部署许多端点更合适。

浏览 0提问于2020-07-31得票数 1

2回答

我是否排除训练集中使用的数据来运行predict ()模型？

r、machine-learning、training-data

我对机器学习非常陌生。我有一个关于对用于训练集的数据运行预测的问题。以下是详细信息:我取了我的初始数据集的一部分，并将其分为80% (训练)和20% (测试)。我在80%的训练集上训练了模型 model <- train(name ~ ., data = train.df, method = ...) 然后在20%的测试数据上运行模型： predict(model, newdata = test.df, type = "prob") 现在，我想使用我训练的模型对初始数据集进行预测，该数据集也包括训练部分。我需要排除用于培训的那部分吗？

浏览 0提问于2017-05-11得票数 1

2回答

在机器学习中，是否可以在开发后将开发集添加到训练集？

machine-learning、training-data

通常我们在训练集上训练我们的模型，在开发集上评估它们，进行一些修改，再次训练和评估，等等(开发阶段)，最后在测试集上进行一次评估。假设我们只有很少的训练数据。然后，在开发阶段之后使用培训和开发集是有意义的。人们可以像往常一样估计超参数，最后(最终训练)将dev集添加到训练集，用先前估计的超参数训练模型，并在测试集上对其进行一次评估。这在某种程度上是“作弊”吗？人们会这样做吗，或者他们通常会在任何培训中遗漏开发人员集？

浏览 0提问于2018-03-23得票数 0

1回答

有没有一种方法可以在训练期间评估模型？

r、machine-learning、data-science

我正在做一个机器学习项目。我已经为项目的不同阶段设置了ML管道。管道是这样的- 数据提取->数据验证->预处理->训练->模型评估模型评估，在完成培训后进行，以确定模型是被批准还是被拒绝。现在，我想要的是在训练过程中在任何时候进行模型评估。大约在60%的训练完成时，停止训练并评估模型，基于此，如果模型被批准，它将恢复训练。如何实现上述场景？

浏览 23提问于2021-04-01得票数 0

1回答

在训练集中删除实例的Weka分类

classification、weka、outliers

为了一个数据挖掘竞赛，我正在构建一个预测流失的模型。我有一个带标签的训练数据集和一个不带标签的测试数据集。为了构建我的模型，我应用了一些过滤器来预处理训练数据集。我使用InterquartileRange、RemoveWithValues和RemoveAttributes过滤器搜索并删除了异常值和极值(因为InterquartileRange会为异常值和极值创建新的属性)。我知道对于Weka来说，提供的测试集和训练集必须具有相同的过滤器，但我需要测试集中的所有实例来查看预测得分。因此，我不能应用RemoveWithValues过滤器。由于这个原因，我得到了“测试和训练集不兼容”。这个问题能解

浏览 2提问于2014-11-16得票数 0

1回答