如何使用我自己的数据在"Floydhub“上运行"Pix2Pix”代码的训练/测试命令？_在使用OROPlatform时，如何开始测试我自己的代码？_如何在PyTorch上使用我自己的数据来测试这个卷积神经网络？ - 腾讯云开发者社区

、、、、

按照本教程，我使用训练了一个Pix2Pix网络。Pix2Pix使用实例规范化，因此在进行推理时，我们需要实例归一化层(批处理规格为1)来计算样本均值和方差。在Tensorflow中，我将前向调用为pred = model(x，training=True)。模型是Pix2Pix的生成器部分，它是一个具有实例规范化的UNet。 model = tf.keras.models.load_model("pix2pix") pred = model(img, training=True) 我们在C++中使用该模型，使用OpenCV神经网络进行推理，但是我们看到，OpenCV DNN的“

浏览 8提问于2022-04-01得票数 0

1回答

如何将本地项目上载到FloydHub服务器

、

我第一次使用floydhub服务器，我想执行本地系统上可用的代码。我尝试使用floyd add 'filename‘将这个目录添加到floydhub服务器，但是它给了我一个错误。 WHen我试过floyd -帮助。我得到： Usage: floyd [OPTIONS] COMMAND [ARGS]... Floyd CLI interacts with FloydHub server and executes your commands. More help is available under each command listed below. Op

浏览 0提问于2017-09-19得票数 1

1回答

GAN - Generator损耗减少，但鉴别器假损耗在初始下降后增加，为什么？

、、、、

我正在学习GAN，并试图在自定义数据集上运行pix2pix GAN模型，我每个时期的平均生成器损失和平均鉴别器假损失和真实损失如下所示- 和我只是不明白，为什么我的生成器损失减少了，而鉴别器假图像损失增加了？据我所知，它应该像发电机一样停下来。有没有人能帮我理解一下我犯的错误或者我所面临的训练问题？批量: 16 纪元: 100 学习率: 0.0008 L1 Lambda: 100 优化器: Gen - Adam；Disc - SGD 生成器中使用的BatchNORM。

浏览 4提问于2021-09-26得票数 0

1回答

如何对Weka中的训练和测试数据集进行分类

、、、、

我正在使用Weka软件对模型进行分类。我对使用训练和测试数据集分区感到困惑。我将整个数据集的60%划分为训练数据集，并将其保存到我的硬盘上，将40%的数据用作测试数据集，并将这些数据保存到另一个文件中。我使用的数据是不平衡的数据。因此，我在我的训练数据集中应用了SMOTE。之后，在Weka的分类选项卡中，我从Test options中选择了Use training set选项，并使用随机森林分类器对训练数据集进行分类。在获得结果之后，我从Test options中选择了Supplied test set选项，并从硬盘加载我的测试数据集，然后再次运行分类器。我试图找到关于如何在Weka中加载

浏览 39提问于2021-10-21得票数 0

回答已采纳

1回答

Mahout 0.9:使用自己的测试集而不是使用拆分命令

、、、

我已经参考了这两个链接来运行mahout分类器。我希望使用我自己的测试集，而不是让mahout将我的数据分成训练和测试集(80:20)。我怎样才能做到这一点？

浏览 4提问于2014-11-11得票数 1

回答已采纳

1回答

多分布噪声消除的生成对抗性网络

、、、

我正在做一个需要去噪图像的项目，我的数据集是由一大块对<natural image, same image with synthetically added noise>组成的。事实上，我有多个噪声源(带有标签)，例如高斯噪声、盐和胡椒、失真、饱和度等等。不同的噪声类型在相同的原始图像上，这意味着对于每一幅不失真的图像，我对每种噪声类型都有一对，我认为这与训练有关。由于GANs最近在图像翻译任务方面取得了成功，我正在研究最近的架构，以及如何使它们适应我的任务。问题是:对于一个GAN来说，它是否有可能学习到分布之间的多对一映射，即不同的噪声分布(多)和不失真的图像分布(I)，还是我

浏览 0提问于2018-02-26得票数 1

1回答

使用Mahout Native Bayes分类器算法需要哪些步骤？

、、

我正在尝试使用Native Bayes分类器来检测欺诈交易。我在excel表格中有大约5000的样本数据，这是我将用于训练分类器的数据，我有大约1000的测试数据，我将在其上应用测试分类器。这里我的问题是，我不知道如何训练分类器。在将训练数据传递到训练分类器之前，我是否需要将其转换为某种特定的格式？训练分类器如何知道哪些是我的目标值，哪些是它的特征。有人能帮帮我吗？

浏览 0提问于2012-08-07得票数 2

1回答

验证和培训不是同时收敛的，但是验证仍然是收敛的

、、、、

上面的链接是cifar10的Resnet模型。我正在修改上面的代码，使用Resnet和Cifar10作为训练/验证数据集来进行对象检测。(我知道数据集是用于对象分类的)我知道这听起来很奇怪，但是听我说完。我使用Cifar10进行培训和验证，然后在测试期间使用滑动窗口方法，然后将每个窗口分类为10个类+“背景”类中的一个。对于背景类，我使用了来自ImageNet的图像。我搜索ImageNet的关键字如下:建筑，景观，旁路，山，天空，海洋，家具，森林，房间，商店，地毯，地板。然后，我尽可能地清除坏图像，包括包含Cifar10类的图像，例如，我删除了一些有狗狗的“地板”图像。我目前正在Flo

浏览 0提问于2018-08-03得票数 0

1回答

尝试在Scipy lib中运行cluster.vq.vq()时获得未定义的集群

我正在尝试通过以下方式学习异常检测：https://github.com/sayakpaul/FloydHub-Anomaly-Detection-Blog/blob/master/FloydHub%20Anomaly%20Detection%20Blog.ipynb 我使用以下命令安装了所需的库: python -m pip install --user numpy scipy matplotlib ipython jupyter pandas sympy nas. cluster.vq.vq()包含在这些库中。然而，我得到了名称错误:集群:名称‘NameError’未定义任何帮助都是非

浏览 20提问于2021-02-02得票数 0

2回答

使用张量流自定义对象检测增加类数W/附加数据的细化模型问题

、、、、

以Tensorflow的自定义对象分类API w/ SSD MobileNet V2 FPNLite 320x320为基础，我能够训练我的模型使用训练数据1(约200幅图像)成功地检测A和B类。这在测试集1上执行得很好，它只有A类和B类的图像。我想在模型中添加几个类，所以我构建了一个单独的数据集，训练数据2(大约300张图像)。该数据集包含B类和新的C类、D类和E类的标记数据，但是它不包括A类的数据，在对该数据进行模型训练时，它在测试集2上表现良好，测试集2只包含B、C、D和E的图像(然而，尽管有额外的数据，B类的准确性并没有提高)。出于担心，我再次检查了测试集1上模型的准确性，正如我所假

浏览 3提问于2021-04-08得票数 0

2回答

用.fit_generator()训练角膜中的GAN

、、、

我一直在使用下面的训练循环来训练类似于Pix2Pix的条件GAN架构： for epoch in range(start_epoch, end_epoch): for batch_i, (input_batch, target_batch) in enumerate(dataLoader.load_batch(batch_size)): fake_batch= self.generator.predict(input_batch) d_loss_real = self.discriminator.train_on_bat

浏览 5提问于2019-11-10得票数 3

回答已采纳

1回答

在其他进程运行时运行命令

、

我想这个问题以前一定有人问过，但我还没有找到答案。我正在使用CentOS 7在服务器上训练神经网络，我使用的是Linux屏幕。在一个特定的屏幕上，我附加了4个GPU。我怀疑我的培训没有使用它们，但我不知道如何确定，因为我必须停止培训，以运行类似的nvidia-smi来获取有关GPU使用的信息。那么显然没有GPU被使用。我也不能在屏幕外运行这个命令。我试着用nohup来训练，但是后来我很难结束训练，所以我在寻找其他的东西。问:我如何确定在培训期间GPU的使用情况？

浏览 0提问于2020-09-14得票数 -1

1回答

GATE工具中的机器学习

、、

在使用GATE工具对训练数据运行机器学习算法(SVM)后，我想在测试数据上对其进行测试。我的问题是，我是否应该使用相同的训练数据进行测试，同时，模型如何从测试数据中提取实体，而测试数据没有使用训练数据中学习到的注释进行注释。我遵循了这个链接上的教程，但在最后，当它谈到将数据集拆分为训练和测试时，它有点令人困惑。

浏览 2提问于2014-08-28得票数 0

2回答

对训练数据的打击

、、、

只有在训练数据上才能进行击打，那么我们如何使用Weka来完成呢？这意味着我们必须将培训和测试数据放在两个单独的文件中，并在培训文件上运行SMOTE，那么如何将两个数据集加载到Weka并执行这些步骤呢？

浏览 0提问于2019-07-12得票数 3

1回答

是否有一种多图像到1图像的深度学习方法？(pix2pix?)

、、、、

我正在尝试建立一个视频稳定的深度学习模型。我想让模型预测框架应该如何稳定，取决于最后的10帧我试过pix2pix，它是图像对图像，但没有取得好的效果所以，我想要和pix2pix一样，但是多图像到1图像有什么方法或者可以使用pix2pix吗？

浏览 1提问于2022-04-25得票数 1

2回答

我们是否需要将数据集划分为测试和培训？

、、

我提前为这么愚蠢的问题道歉！我认为我们需要将数据集划分为svm中的训练和测试，然后使用训练集来找到模型。然后用测试集检验该模型的准确性。在libsvm数据集"“中，有些数据集有训练和测试，而其他数据集则没有训练和测试，因此根据libsvm网站的libsvm指南，相关代码是不同的。例如，在svmguide2数据集中没有指定的测试集。那么，我们如何检验模型的准确性。

浏览 2提问于2013-10-14得票数 0

回答已采纳

1回答

改进素描到图像的pix2pix结构--从素描到人的草图到人的照片的转换

、、、

对于一个大学项目，我需要创建一个神经网络，把人的草图转换成图像。为了实现这样一个神经网络，我决定实现一个pix2pix GAN结构。神经网络是在我的教授提供的修改版的CUFS数据集上进行训练和评估的。虽然神经网络能够执行图像转换，如下面的图像对所示，但我想知道是否有方法来提高结果的质量？特别是，我想知道是否有办法使图像看起来更清晰？ 📷 我已经在将相对较小的训练数据集( 70张素描照片对)增加到770副。此外，我试图减少\lambda参数的值。关于这个时代，我发现在160次迭代之后，验证损失不会显著下降。正如您在笔记本上的最后一次调用中所看到的那样，目前在测试数据集中实现的我在Google

浏览 0提问于2020-12-26得票数 0

2回答

测试图像的YOLO v5推理

、、、、

我正在YOLOv5上训练在机器人流上创建的自定义数据集。当训练完成后，我进行推理，得到没有标签的黑色图像。我不知道问题出在哪里。

浏览 12提问于2022-07-14得票数 0

1回答

替换Tensorflow CNN模型中的MNIST数据

、

我正试图在tensorflow中自己的数据集上训练CNN模型。我使用下面的代码将我的数据转换为相同的MNIST格式。现在我不知道如何用我自己的数据替换MNIST数据。有没有办法用我自己的数据替换mnist数据，或者在tensorflow中导入它们？

浏览 0提问于2017-07-22得票数 0

2回答

并行运行多个python脚本

、、、

我有一个run_command_list.txt，它每行包含一个命令： time python3 train.py --dataroot ./datasets/maps --name maps_pix2pix --model pix2pix --direction AtoB --checkpoints_dir maps_pix2pix_a_to_b_bs_1 --batch_size 1 > bs_1.log time python3 train.py --dataroot ./datasets/maps --name maps_pix2pix --model pix2pix --dir

浏览 0提问于2019-11-19得票数 1

1回答

一个经过预先训练的模型会在一个完全不同的数据领域工作吗？

、、

预先训练的模型在不同的工作中被广泛使用。我想知道一个预先训练过的模型在数据域A上是否能很好地在数据域B上工作。例如，如果我微调一个模型(经过ImageNet训练)来解决生物医学方面的一些分类问题，这种预先训练的-finetune方法会比训练我自己的模型更好吗？

浏览 0提问于2022-10-20得票数 0

2回答

监督学习中测试数据的目的？

、、

所以这个问题可能看起来有点愚蠢，但我无法理解它。测试数据的用途是什么？只是为了计算分类器的准确率吗？我正在使用朴素贝叶斯对推文进行情感分析。一旦我使用训练数据训练我的分类器，我就使用测试数据来计算分类器的准确性。如何使用测试数据来提高分类器的性能？

浏览 0提问于2015-03-02得票数 0

1回答

对抗健壮的Googlenet模型

、

如何在自己的图像分类数据集上对抗性地训练googlenet模型？例如:使用cleverhans库，有批处理要运行攻击的数据是MNIST和CIFAR。我用自己的数据(Googlenet)使用Tensorflow训练了一个图像分类器，现在我想用对抗性的例子来训练模型。我可以用cleverhans库做的任何想法。谢谢。

浏览 15提问于2019-03-18得票数 0

回答已采纳

3回答

accuracy+培训与测试的区别--流动教程

、、、

这个tensorflow 中的代码使用代码的这一部分来计算验证的准确性，对吗？ eval_input_fn = tf.estimator.inputs.numpy_input_fn( x={"x": eval_data}, y=eval_labels, num_epochs=1, shuffle=False) eval_results = mnist_classifier.evaluate(input_fn=eval_input_fn) print(eval_results) 问题：--如果我必须计算训练集的准确性--即看

浏览 2提问于2018-06-12得票数 0

回答已采纳

1回答

Python模型中的目标编码

、

我用python做了一个模型，这个模型使用了目标编码。我使用了一个有25000行的数据集，分为训练数据集和测试数据集。这个模型确实运行得很好。但是，我现在想要在全新的数据上运行模型--比如excel文件中只有一行数据。我需要知道它的代码，如果有人能帮助我，我会很感激的。我对python有些陌生。这是我编写的代码的一部分，用于从25000行创建训练和测试数据集，并在测试中训练模型和预测。但是，我需要运行此模型的代码，该模型使用目标编码来预测新数据。如果我需要发布更多更清晰的代码，请让我知道。 train_x, test_x, train_y, test_y = train_test_split(

浏览 3提问于2018-10-24得票数 2

1回答

在windows phone上运行Tesseract Ocr？

、、、

我使用tesseract Ocr，训练Tesseract ocr引擎并结合数据是为了实现像7段display.Here这样的数字显示的识别是问题所在，将图片转换为tiff并生成.box文件我使用的是需要java运行时支持的JTessBoxEditor，然后我运行WPF应用程序来训练Tesseract引擎，但它总是识别为8。我如何才能在windows phone上运行所有这些?我需要在Azure上创建虚拟机然后链接它吗?或者其他更容易、更快的方式，让它在windows phone上运行？

浏览 1提问于2016-11-08得票数 0

2回答

神经网络训练时交叉验证？

、、

训练神经网络时的标准设置似乎是将数据分割成训练集和测试集，并一直运行到测试集上的分数停止提高为止。现在，问题是:测试分数中存在一定数量的噪声，因此单个最佳分数可能不符合网络状态，而网络状态最有可能是新数据上的最佳状态。我见过一些论文指出训练中的一个特定时代或迭代是“交叉验证最好的”，但我不知道这是如何确定的(论文没有提供任何细节)。“交叉验证的最佳”点不是有最好的测试分数的点。如何进行这种类型的交叉验证？会不会是在测试集上做k折叠？好吧，这给了k个不同的测试分数，而不是一个，然后呢？

浏览 0提问于2016-04-09得票数 6

回答已采纳

2回答

如果我的GAN甄别器损失到0会不好吗？

、、、

一直在训练我的Pix2Pix GAN，大约在20世纪的时候，甄别器的损失开始下降到0。从30年代开始，它一直保持在0。然而，发电机的损耗却在不断减少。在最初的几个时期，发电机的损耗在50-60之间。在100年代左右，发电机损耗约为4- 5，然后在150~350年间，发电机损耗在1~ 3之间徘徊。那么，判别器损失降到0会不好吗？我该怎么解决呢？

浏览 3提问于2022-05-16得票数 0

回答已采纳

1回答

Orange:如何确保相同的PCA同时应用于训练数据集和测试数据集？

在Orange中，我可以将数据集附加到PCA以进行降维。通常，在代码中，我会在将经过训练的PCA与训练数据进行拟合后，将其应用于测试数据。在Orange中，PCA似乎只能放置在列车或测试集的下游。有没有一种方法可以在测试数据的训练数据上运行PCA转换？

浏览 72提问于2020-02-22得票数 0

回答已采纳

1回答

Mallet CRF序列分类训练数据格式

、、、

我正在尝试使用Mallet库训练CRF序列模型，但我遗漏了一些重要信息。我在的库中找到了一个示例，但是该示例没有说明输入训练数据的格式，因此我不知道如何重新创建它。 Mallet在上确实有一个数据导入示例，但这个特定的示例似乎是用于文档分类，而不是我的用例-- CRF序列模型。我尝试将输入训练数据放入中使用的形式，即 Bill CAPITALIZED noun slept non-noun here LOWERCASE STOPWORD non-noun 和表单中的测试数据 CAPITAL Al slept here 然而，根据输出日志，它似乎不是正确的格式。

浏览 4提问于2017-06-29得票数 2

回答已采纳

4回答

无法识别的参数: True

代码： if __name__ == '__main__': parser = argparse.ArgumentParser(description='Build dataset') parser.add_argument('jpeg_dir', type=str, help='path to jpeg images') parser.add_argument('nb_channels', type=int, help='number of image channels'

浏览 4提问于2017-04-13得票数 2

1回答

如何在机器学习中使用不同的数据集测试我的模型

、、、、

我是机器学习的新手，我正在使用CountVectorizer模型创建一个小项目。我将我的数据拆分到80% -20%。80%用于训练模型，20%用于测试模型。我的模型可以在20%的测试数据上正常运行，但是我可以用来在类似于训练数据集的不同数据集上测试我的模型吗？我使用joblib来转储和加载我的模型。 from joblib import dump, load dump(pipe, filename) loaded_model = load('filename') 我的问题是如何使用不同的数据集直接测试我的模型？

浏览 3提问于2020-07-14得票数 0

1回答

复制实验结果的问题

、

我在R中使用CreateDataPartition运行了一些实验，以拆分训练数据和测试数据。我将结果循环了大约500次，并在一台笔记本电脑上进行了测试。当我试图在另一台笔记本电脑上用相同的代码和数据复制这些实验时，它给出了非常不同的结果，与我以前的结果不太一样。我假设这可能是由于种子问题，我正在试图弄清楚如何管理它，以便至少可以复制与以前几乎相同的结果。有什么建议吗？下面是我如何拆分训练和测试数据的快照： for (i in 1:500){ set.seed(i) index = createDataPartition(data$S, p=.75,list=FALSE,times=

浏览 7提问于2020-02-12得票数 0

3回答

我们如何知道何时停止在预先训练的模型上训练模型？

、、、

我很抱歉，因为我的问题可能听起来很愚蠢。但我在深度学习和咖啡因方面还是个新手。我们如何检测需要多少次迭代才能对我们自己的数据集上的预训练进行微调？例如，我使用5个类对我自己的数据运行fcn32。我什么时候可以通过观察训练阶段的损失和准确性来停止微调过程？非常感谢

浏览 66提问于2017-01-15得票数 1

2回答

文本分类-当训练数据和测试数据有不同的特性时该怎么办？

、、、

我正在执行二进制文本分类。我必须将一条推文分类为0(如果中立)和1(如果是仇恨言论)。所以作为一般的经验法则，我对我的数据进行了预处理。创建术语文档频率，删除稀疏项后，我将数据划分为训练和测试。我用随机森林和logistic回归来训练我的模型，效果很好。 set.seed(123) tweetRand = randomForest(label ~ ., data = train_sparse, importance=TRUE, nTree=500 ) randPridct = predict(tweetRand, newdata = test_sparse) table(test_spars

浏览 0提问于2018-03-16得票数 1

回答已采纳

1回答

什么形式的数据用于预测广义堆叠集合？

、、

我非常困惑如何分割训练数据，以及在使用广义叠加时对0级数据的预测。这个问题类似于我的问题，但答案还不够清楚： 1个级模型的预测如何成为一种新模型的训练集。我的理解是训练集是分裂的，基本模型是在一个分裂上训练的，而预测是在另一个分裂上进行的。这些预测现在成为新数据集的特性。一个列用于每个模型的预测，另一个列包含这些预测的基本事实。将训练数据分割成训练/测试。基于训练分割的训练基本模型。对测试结果进行预测(根据链接答案，使用k-折叠简历)。为每个模型创建一个特性，用模型的预测填充它为这些预测的基本事实创建一个特性。创建一个新的模型，并对其进行这些预测和地面真相特征的培训。问题1:这

浏览 0提问于2020-05-16得票数 1

回答已采纳

1回答

如何在python/sklearn中交叉验证来自随机森林的预测？

、、

请有人告诉我，如果这是正确的方法，计算交叉验证的精度我的分类器？我将我的数据集划分为训练数据的xtrain和ytrain，以及测试集的xtest & ytest。构建模型： RFC = RandomForestClassifier(n_estimators=100) 适合于训练集的： RFC.fit(xtrain, ytrain) ，这是我不确定的部分： scores = cross_val_score(RFC, xtest, ytest, cv = 10, scoring='precision') 使用上面的代码，“分数”会给我在我的模型上的精确性，而我的模型是关于

浏览 8提问于2015-07-04得票数 3

1回答

如何在服务器上运行我的深度学习模型，即使在断开系统与服务器的连接后也不会中断？

、、、

我所有的数据都在服务器上。如何在断开系统连接后在服务器上运行模型。由于我有大量的数据，训练模型需要10小时的时间。

浏览 0提问于2019-07-30得票数 0

1回答

使用NLTK和自定义语料库(非英语)的培训人员必须使用StanfordNER？

、、

我从python的NLTK库中搜索了定制NER语料库来培训模型，但是所有的答案都直接指向nltk 第七章，并且诚实地让我搞不懂如何用如下结构的正确的流程和数据集来训练语料库： Eddy N B-PER Bonte N I-PER is V O woordvoerder N O van Prep O diezelfde Pron O Hogeschool N B-ORG . Punc O 我有一些问题：我发现了这么多的文章，如果你要用NLTK来训练定制的语料库，那么它也会使用StanfordNER库吗？或者我们可以用纯的NLTK库来做它？如果要将语法模式应用于其他语言，是否应该包括它？流程如

浏览 0提问于2021-01-11得票数 1

1回答

如何根据插入符号：：train的输出创建学习曲线(偏差/方差)

、、、

我是第一次接触插入符号库。我想使用训练函数在我的数据集上运行交叉验证(使用rpart方法进行分类)。我的目标是使用我调用训练返回的数据来生成学习曲线。学习曲线将在x轴上绘制数据集大小。训练集和交叉验证集上的预测误差将绘制为数据集大小的函数。我的问题是，在训练和简历折叠上，插入符号都能做出预测吗？如果答案是肯定的，我该如何提取这些数据呢？假设答案是肯定的，下面是一个简单的代码示例，您可以将其附加到示例中进行说明： library(MASS) data(biopsy) biopsy <- biopsy[, -1] names(biopsy) <- c("thick"

浏览 3提问于2017-09-10得票数 1

2回答

一个如此依赖于初始化种子的神经网络模型有什么问题？

、、

我有一个完全连接的神经网络，它有一个包含2个单元的隐层，其目标是对一个包含324个样本和300个特征的数据集进行分类。50%的数据集用于训练，50%的数据集用于测试。数据集中有两个类，一个有75个样本，另一个有249个样本。当我用不同的种子训练模型时(实际上，当我重新运行训练函数时)，它在测试集上的结果具有很高的方差，测试集的分类精度变化在20%左右。这个模型有什么问题？我怎么才能让它稳定下来？我如何报告结果呢？

浏览 0提问于2020-05-14得票数 1

1回答

Spark MLLIB并行多节点

、

由"spark mllib“提供的机器学习算法可以像naive byes，随机森林一样在spark集群上以并行模式运行吗？或者我们需要修改代码？请提供一个并行运行的示例？不确定MLLIB中的并行性是如何工作的(map) -因为每个处理都需要整个训练数据集。计算是否与训练数据的子集并行运行？谢谢

浏览 0提问于2016-03-06得票数 3

1回答

如何使用Keras ImageDataGenerator为pix2pix CNN模型提供数据？

、、

我正在尝试使用keras ImageDataGenerator来训练pix2pix CNN模型。它将输入图像映射到输出图像。我们知道pix2pix ImageDataGenerator可以很容易地用于图像分类，但我在训练keras模型时遇到了问题。这是我的尝试：自定义生成器： class JoinedGen(tf.keras.utils.Sequence): def __init__(self, input_gen, target_gen): self.input_gen = input_gen self.target_gen = target_ge

浏览 17提问于2021-08-27得票数 0

回答已采纳

1回答

Vectorizer fit信息存储在哪里或如何存储？

、

在文本挖掘/分类中，当使用向量器将文本转换为数值特征时，在训练中使用TfidfVectorizer(...).fit_transform(text)或TfidfVectorizer(...).fit(text)。在测试中，它假设利用以前的训练信息，并仅在训练拟合后转换数据。一般情况下，试运行与列车运行是完全分开的。但它需要一些关于在训练阶段获得的拟合的信息，否则转换将失败，并出现错误sklearn.utils.validation.NotFittedError: idf vector is not fitted。它不仅仅是一本字典，它还是一种别的东西。在训练完成后，为了使测试阶段顺利通过，

浏览 1提问于2016-03-09得票数 0

3回答

在Google Cloud Platform中管理scikit-learn模型

、、

我们正在试图弄清楚如何在GCP中托管和运行许多现有的scikit-learn和R模型(按原样)。似乎ML引擎是Tensorflow的专用引擎。如果数据集太大而无法放入datalab，我如何在Google云平台上训练scikit-learn模型并管理我的模型？我仍然可以使用ML Engine吗?或者大多数人是否采取了不同的方法？作为更新，我能够通过将其作为训练作业提交给ML引擎来获得训练scikit-learn模型运行的python脚本，但是还没有找到托管酸洗模型或将其用于预测的方法。

浏览 1提问于2017-04-21得票数 2

1回答

基于GAN的图像分割图与SOTA语义分割方法有何不同？

、、、

我一直在寻找像Pix2Pix和DeeplabV3这样的论文。在pix2pix论文中，有一个要分割的图像任务。同样，DeeplabV3也用于分段任务。我想知道什么时候应该使用GAN进行分割，什么时候应该使用SOTA分割方法。这些方法在语义分割上的优缺点是什么？

浏览 1提问于2020-02-17得票数 0

2回答

如何在weka中将测试文档转换为训练词汇维度的向量？

、

这确实是我面临的一个令人讨厌的问题。我需要在Weka中创建自己的分类器，即Rocchio。使用Weka的StringtoVector功能，我可以很容易地将训练样本转换成带有tf-idf的向量进行术语加权，并提取V维的词汇表，我尝试了很多方法，但没有想出一种方法来为测试文档创建V维(训练样本中的词汇)的文档向量，但我知道这是可能的，就像我们分别提供训练和测试样本的所有分类器一样，这是在内部完成的，因为所有人都需要测试文档的文档向量，这是训练词汇表维度的，但是我如何在java代码中做到这一点，以便我可以获得测试样本tf-idf向量，它与词汇和所有训练样本的维度相同。我真的很感谢你在这件事上的帮

浏览 0提问于2013-12-17得票数 1

1回答

有足够的特征吗？

、

我试着在加速度计数据集上训练一个随机森林。我计算的特征，如均值，sd，轴之间的相关性，曲线下面积等。我是ML Noob。我想弄明白两件事： 1.将数据集从一个人中分离出来进行测试、训练和运行射频预测，准确率较高(> 90%)。然而，如果我用不同的人的数据训练射频，然后预测，准确率很低(< 50%)。为什么？我如何调试这个？不知道我做错了什么。在上面的例子中，要达到90%的准确率，有多少特性是“足够”的？多少数据是“足够”？我可以提供更多细节。数据集是从10个人，大文件的标签数据。为了避免大量的计算，我将自己限制在上述特性上。

浏览 1提问于2015-07-21得票数 0

回答已采纳

1回答

如何在使用nvprof分析Tensorflow代码时捕获GPU数据？

、、、、

我想要分析在多GPU系统上用Tensorflow编写的变压器模型的训练循环。因为代码不支持tf2，所以我不能使用built-in but experimental分析器。因此，我想使用nvprof + nvvp (CUDA 10.1，driver: 418)。我可以分析代码而不会出现任何错误，但是，当在nvvp中检查结果时，没有针对GPU的数据。我不知道这是什么原因，因为nvidia-smi清楚地显示GPU已被利用。 This thread似乎描述了同样的问题，但没有解决方案。按照this question中的建议，我对代码运行了cuda-memcheck，没有产生任何错误。我尝试过使用

浏览 24提问于2020-03-26得票数 0

1回答

RANSAC回归模型的检验

、、、

我将建立一个模型(例如多元线性回归)来预测我所在城市的公寓成本。首先，我必须在训练数据中找出异常值。对于这个任务，RANSAC回归算法看起来很有吸引力，因为它不仅允许检测异常值，而且还允许构建模型本身。有一件事让我感到困惑，那就是如何测试受过训练的模型。检验模型是否具有良好预测能力的标准方法是对列车数据和测试数据进行分割，并在测试数据上应用经过训练的模型。对于RANSAC，这将不起作用，因为测试数据也有异常值，而且它们会偏倚模型的分数。我的问题是，我们如何才能检查受过训练的模型是否好？

浏览 0提问于2023-03-11得票数 0