用于训练机器学习模型的80-20或80-10-10？

文章/答案/技术大牛

发布

1回答

validation、machine-learning、training-data

我有一个非常基本的问题。 1)建议在什么时候保留部分数据进行验证，什么时候不需要？例如，什么时候我们可以说80%的训练，10%的验证和10%的测试拆分更好，什么时候我们可以说简单的80%的培训和20%的测试拆分就足够了？2)另外，使用K-Cross验证是否适用于简单的拆分(训练-测试)？

浏览 26提问于2020-03-18得票数 0

回答已采纳

1回答

80-20还是80-10-10的训练机器学习模式？

machine-learning、cross-validation、training

我有一个非常基本的问题。2)此外，使用K-交叉验证是否与简单的拆分(培训-测试)一致？

浏览 0提问于2020-03-18得票数 0

回答已采纳

2回答

术语问题

machine-learning、machine-learning-model

在机器学习中，模型的定义是问题域选择的算法，还是模型是算法和训练数据？谢谢。

浏览 0提问于2018-12-03得票数 1

回答已采纳

1回答

是否有可能对个人实例进行分段，并使用从Google获得的网络在云端运行？

google-cloud-platform、google-cloud-vision

我在Google文档中找不到这些信息：此外，我是否拥有获得的网络(和数据)？

浏览 1提问于2018-11-20得票数 0

回答已采纳

2回答

面部表情数据集的训练验证测试集分割

machine-learning、neural-network、cross-validation、computer-vision、convolutional-neural-network

我正在使用卷积神经网络(CNN)，我只想问一下，我的训练/验证/测试集的划分方式是否正确。验证集是否也应由看不见的主题组成？或者我可以洗牌整套培训，并使用其中的一部分(10-20%)作为验证集？我读过，使用N-折叠交叉验证，整个训练集(实例)被洗牌，然后分裂成N-折叠，模型被训练

浏览 0提问于2016-10-04得票数 2

回答已采纳

2回答

训练集和测试集大小

machine-learning、deep-learning、training

如何正确处理培训/测试集的生成？我正在做几个实验来测试我的神经网络模型的泛化能力，所以在所有实验中，我的测试集都不同于我的训练集(例如，在一个实验中，训练集和测试集之间的句子结构是相同的，而在训练集中我使用一组单词，在测试集中使用另一组单词因此，我的问题是:为了能够比较实验之间的准确性，我是否必须在实验之间保持相似的训练集/测

浏览 0提问于2021-07-08得票数 1

1回答

如果在相同的数据上训练嵌套模型，是否会过度拟合

machine-learning

如果我建立一个机器学习模型，它使用来自另一个机器学习模型的输出，而两个模型都是在相同的数据上训练的，是否会过度拟合？基本上，我想知道是否可以使用KNN预测结果作为深度神经网络模型的输入，而这两个模型都是在完全相同的数据上训练的。

浏览 0提问于2018-11-06得票数 0

1回答

面部表情数据集的训练验证测试集分割

validation、machine-learning、computer-vision、neural-network、conv-neural-network

浏览 3提问于2016-10-03得票数 1

回答已采纳

1回答

我有一个数据集，其中的目标变量有15%的空值，我想使用这些空行作为我的测试集，这是可能的吗？

machine-learning、dataset、linear-regression、isnull

我正在使用机器学习算法线性回归来预测房地产销售价格的值，并将销售价格作为我的目标变量。.But销售价格中有15%的空值，所以我可以使用这15 %作为我的测试集和非空值作为我的训练集吗？

浏览 11提问于2019-05-31得票数 0

2回答

为什么不能用0.01作为参数或99%的训练数据来分割训练试验数据？

tensorflow、lstm、training

大多数博客都提到了一个很好的经验法则，即列车和测试的分选分别是80-20。有问题吗？为什么我们不能有一个99-1的火车测试分裂，为模型学习所有的信息和时间趋势。由于我的预测将在未来，我将永远增加我的测试数据集。我使用神经网络(Rnn)来预测。我知道cross_validation，froward_chaining是训练时间序列数

浏览 0提问于2019-09-22得票数 3

回答已采纳

1回答

分离因变量和自变量

python、data-science

我建立了一个线性回归模型，但不知道分离因变量和自变量的必要性x = data.iloc[:, 0:1].values y = data.iloc[:, 1]

浏览 1提问于2019-10-31得票数 0

1回答

在NLP中受过训练的模型是什么？

java、nlp、stanford-nlp、opennlp

我是自然语言处理的新手。有人能告诉我在OpenNLP或斯坦福大学CoreNLP中受过训练的模特是什么吗？在使用apache openNLP包在java中进行编码时，我们总是需要包括一些经过训练的模型(在这里可以找到 )。他们是什么?

浏览 2提问于2016-12-30得票数 1

回答已采纳

1回答

亚马逊机器学习模型重建可能性

amazon-web-services、machine-learning、amazon-machine-learning

在AWS机器学习中，只有两种内建的预测/分类模型.Logistic回归和线性回归。在AWS ML的当前版本中，是否有可能：在AWS开发者指南的最新版本中，我找不到那些问题<

浏览 12提问于2016-12-13得票数 2

回答已采纳

1回答

同时使用和训练神经网络是可能的吗？

neural-network、artificial-intelligence、biological-neural-network

是否可以使用Tensorflow或类似的库来建立一个模型，您可以同时有效地进行培训和使用。这方面的一个例子/用例是你给出反馈的聊天机器人。有点像宠物学习的方式(也就是复制他们只是为了奖励而做的事情)。或者能够添加新的条目或新的响应。

浏览 6提问于2020-07-20得票数 0

回答已采纳

2回答

我们是否需要对测试和训练数据集进行预处理？

machine-learning、python、pandas、preprocessing

我得到了两个数据集，在测试和培训数据集中都有缺失的值。我是否也需要对test.csv进行预处理，还是只对train.csv进行预处理？

浏览 0提问于2021-10-17得票数 3

1回答

随着更多的数据变得可用，您如何改进机器学习模型？

machine-learning、training-data

大多数有监督机器学习问题的基本过程是将数据集分为训练集和测试集，然后在训练集上训练模型，并在测试集上评估其性能。但在许多(大多数)环境中，例如疾病诊断，将来会有更多的数据可用。我如何使用它来改进模型？我需要从头开始重新训练吗？如果是这样的话，什么时候是重新训练的合适时间(例如，特定百分比的额外数据点)？

浏览 1提问于2021-02-17得票数 0

1回答

有监督或无监督的机器学习算法如何比新的数据集更好

machine-learning

使用这门课程是关于机器学习的，我了解了一些关于监督和无监督算法的知识。在维基百科上，我读到机器学习是“在任务/任务完成后获得更好的性能/P，即经验/E”。现在，在这些算法中，我看到的是它们给它一组数据(或者为监督的算法预先标记，或者不是为另一种算法标记)，这些算法试图计算出数据并生成一些输出。但是，我真的找不出在这个过程中，这些算法在接收到的每一个新数据集中是如何变得更好的</

浏览 0提问于2015-12-09得票数 1

3回答

在同一个大规模数据集上对数百个模型进行评分的最佳实践？

scoring

我有预测各种事物的500+模型，以及一个由400m+个人和大约5,000个可能的自变量组成的大型数据库。目前，我的评分过程大约需要5天，操作方法是将400m+记录分块成10万人的片段，并旋转n个线程，每个线程都有一个特定的500+模型子集，并以这种方式运行，直到所有模型的所有记录都得分为止。每个线程都是一个Python进程，它提交R代码(即加载一个R .rds模型和相关的数据集转换

浏览 0提问于2020-01-21得票数 2

3回答

确定描述符K-均值聚类中的簇数

machine-learning、clustering、k-means

我是机器学习领域的新手，我有一个问题要问。但让我先发布这个问题。我选择了解决方案:在大多数情况下，解决方案也是非常简单的。利用SIFT、SURF等算法提取兴趣点，得到这些关键点的描述子，并用K均值算法对其进行聚类。我无法理解的是我可能需要的集群数量。对上述例子

浏览 0提问于2016-12-26得票数 0

1回答

simpletransformers.ai LayoutLM模型的输入数据格式

python、machine-learning、nlp

输入数据如下：模型的代码如下： "layoutlm", AttributeError: 'list' object has no attribute 'label' 如何正确定义模型输入以获得预测结果

浏览 0提问于2021-11-10得票数 1

点击加载更多