cat boost功能在训练数据中有‘分类类型’，在测试数据集中有‘浮动’类型 - 腾讯云开发者社区

r、training-data、imputation

我正在使用训练和测试数据集来测试一个估算模型的准确性。我正在运行的模型使用了一个分类变量。不幸的是，当我随机拆分数据集并在训练集上运行一个模型时，我无法估计测试数据集中存在的某些分类变量的系数。我想对数据进行分割，同时确保所有的分类变量都存在于培训和测试数据集中。在R中有一种简单的方法吗？在下面的模拟数据中，这需要相同的字母集在两个数据集中，这样我就可以在测试数据集中测试模型的准确性。 chars<-c("A","B","C","D") complete_data<-data.frame(v1=rnorm(100,

浏览 1提问于2021-11-06得票数 0

1回答

在训练和测试中，一个数据点有不同数量的类别，我该如何处理分类数据？

python-3.x、jupyter-notebook、data-science

我正在做以下Kaggle项目：https://www.kaggle.com/c/house-prices-advanced-regression-techniques。我的问题是，如果测试数据中有分类值的选项，但训练数据中没有，反之亦然。例如，如果数据点a在训练数据中具有选项a、b，但在测试数据中具有选项a、b、c，反之亦然。谢谢你的帮忙! 我只想能够正确地训练和运行我的神经网络。

浏览 19提问于2019-05-03得票数 1

回答已采纳

2回答

使用sci-kit中的训练/测试数据学习曲线，而不是交叉验证

python、machine-learning、scipy、scikit-learn

我有一个独立的训练和测试数据(从不同的CSV加载到不同的pandas数据框中)，我想用这些训练和测试数据绘制学习曲线，而不是使用交叉验证从训练集本身生成训练和测试数据(这似乎是learning_curve的常见工作方式)。似乎scikit希望你的测试和训练数据出现在同一个Dataframe中，但这样分类器也会学习测试数据，这不是我想要的。我该如何着手解决这个问题呢？我是第一次接触科学工具包。

浏览 3提问于2015-09-20得票数 2

1回答

使用Weka预测测试数据集中的文本数据标签？

machine-learning、weka

我正在使用Weka gui在数据集上训练支持向量机分类器(使用libSVM)。.arff文件中的数据为 @relation Expandtext @attribute message string @attribute Class {positive, negative, objective} @data 我使用String-to-Word Vector将其转换为一袋单词，运行SVM并获得不错的分类率。现在我有了我的测试数据，我想要预测他们的标签，我不知道。同样，它的头信息是相同的，但对于每个类，它都标有一个问号(?)即 'Musical awareness: Great Big

浏览 2提问于2013-03-16得票数 1

回答已采纳

2回答

监督学习中测试数据的目的？

machine-learning、test-data、supervised-learning

所以这个问题可能看起来有点愚蠢，但我无法理解它。测试数据的用途是什么？只是为了计算分类器的准确率吗？我正在使用朴素贝叶斯对推文进行情感分析。一旦我使用训练数据训练我的分类器，我就使用测试数据来计算分类器的准确性。如何使用测试数据来提高分类器的性能？

浏览 0提问于2015-03-02得票数 0

2回答

如何分割和训练生物学数据模型

machine-learning、dimensionality-reduction

我使用的基因表达数据，是浮动数字，并希望训练分类器考虑到二进制分类。由于我是这个领域的新手，我有一些问题：我使用的第一个分类器是SVM。我正在使用sklearn工具，它需要在培训和测试数据集中分离数据集。据我所知，为了构建模型，需要将数据集中的数据集和验证数据集(找到模型的参数)分开，而对于超参数的微调，则需要一个测试数据集。有趣的是，考虑到我在查看sklearn文档时发现的情况，建议只对火车和测试数据集进行分割。验证数据集上没有断言。因此，我怀疑，我是否正确地运行分类器。下面是我使用的代码： from sklearn.model_selection import train_tes

浏览 0提问于2021-06-10得票数 1

1回答

LDA作为分区之前或之后的降维

machine-learning、computer-vision、classification

我正在进行分类，我有一个关于仅用于降维的LDA的问题： LDA是否适用于包括训练数据和测试数据在内的整体特征矩阵，然后(在减少数据维数后)对特征矩阵进行划分，为分类提供训练和测试集？是真的吗？然后，假设我们需要在应用LDA之前对数据进行分区。如何能够使用Matlab的内部分类器(如kNN和SVM)对测试数据进行分类？

浏览 1提问于2017-09-30得票数 2

1回答

我应该使用word2vec来进行word嵌入，包括测试数据吗？

machine-learning、nlp、text-classification、word2vec、word-embedding

我是一个新的人在NLP和我尝试做文本分类工作。在做这个工作之前，我知道我们应该做单词嵌入。我的问题是，我应该只在训练数据(使测试数据只从训练前的vec训练数据模型获得向量)上做单词嵌入工作，还是同时对训练数据和测试数据进行嵌入工作？

浏览 2提问于2016-05-22得票数 0

回答已采纳

1回答

如何提高朴素贝叶斯分类器的准确性？

performance、hadoop、mahout、tf-idf

我使用的是朴素贝叶斯分类器。遵循此。对于训练过的数据，我使用了308个问题，并将它们分为26个类别，这些类别都是手动标记的。在发送数据之前，我正在执行NLP。在NLP中，我正在执行(标点符号删除、标记化、停用字删除和词干提取)这些过滤数据，用作mahout的输入。我使用mahout NBC训练这些数据并获得模型文件。现在当我跑的时候 mahout testnb 命令I将实例正确分类为96%。现在，对于我的测试数据，我使用了100个我已经手动标记的问题。当我将训练好的模型与测试数据一起使用时，我得到了正确分类的实例为1%。这让我很生气。有没有人能建议我做错了什么，或者建议我一些提高NBC性

浏览 3提问于2013-06-05得票数 1

3回答

如何评估数据挖掘模型？

data-mining、regression、decision-trees

我将评估我建立的分类模型。这就是逻辑回归和决策。我用什么标准来比较？假设模型选择的标准是ASE。训练数据ASE高，测试数据ASE低，训练数据ASE低，测试数据ASE高。如果您选择一个模型，您会选择哪些模型？

浏览 0提问于2018-06-02得票数 1

回答已采纳

1回答

为什么WEKA-TestSets必须有class属性？

machine-learning、weka

我有非常好定义的机器学习训练集(只有字符串属性)。例如： @relation training_rel @attribute class {politics,sports} @attribute text string @data politics,'some text about politics over here' ... // a lot of other training instances of class politics sports,'and now some sports over here' ... // a lot of other

浏览 1提问于2014-10-11得票数 2

1回答

使用Mahout Native Bayes分类器算法需要哪些步骤？

classification、mahout、fraud-prevention

我正在尝试使用Native Bayes分类器来检测欺诈交易。我在excel表格中有大约5000的样本数据，这是我将用于训练分类器的数据，我有大约1000的测试数据，我将在其上应用测试分类器。这里我的问题是，我不知道如何训练分类器。在将训练数据传递到训练分类器之前，我是否需要将其转换为某种特定的格式？训练分类器如何知道哪些是我的目标值，哪些是它的特征。有人能帮帮我吗？

浏览 0提问于2012-08-07得票数 2

3回答

使用OneHotEncoder后的不同特性数

scikit-learn、feature-engineering、feature-scaling

我在两个独立的文件中有训练和测试数据。 OneHotEncoder根据不同的值为列车和测试数据提供了不同数量的特性。但是分类器要求测试和训练数据的特征数应该相等，如何解决这个问题？

浏览 0提问于2018-03-13得票数 2

回答已采纳

1回答

TreeBagger() (MATLAB)和不同数量的训练和测试集上的变量

matlab、machine-learning、random-forest

我正在使用MATLAB函数TreeBagger()进行随机森林分类，以完成一项任务。当测试数据的变量数量与训练数据的变量数量不同时，它会给出错误。我被告知，变量选择应该只在训练数据上进行，而不是在测试数据上，这样测试数据上就没有偏见。因此，在将初始数据集(50个变量)拆分为训练集和测试集后，我对训练集执行变量选择(独立性的卡方检验)。因此，训练集由37个变量组成，而测试集仍有50个变量。我使用训练训练集，然后使用测试集进行预测(函数)。我得到了一个错误，因为测试集的变量数量与模型训练时使用的变量数量不同。仅在训练集上执行变量选择是否错误？有没有一种方法可以使用这个函数执行预测？

浏览 0提问于2015-12-20得票数 1

2回答

它是否被认为是过度拟合具有完美属性的决策树？

machine-learning、artificial-intelligence、classification、decision-tree、supervised-learning

我有一个6维的训练数据集，其中有一个完美的数字属性，它以这种方式分隔所有训练示例:如果为TIME<200，则该示例属于class1，如果为TIME>=200，则该示例属于class2。J48创建了一个只有一个级别的树，并且这个属性是唯一的节点。然而，测试数据集并不遵循这一假设，所有的示例都被错误分类。我很难弄清楚这个案子是不是太合适了。我要说的不是数据集那么简单，但据我所知，过拟合的定义意味着对训练数据的高度拟合，这就是我所拥有的。有什么帮助吗？

浏览 2提问于2016-05-03得票数 0

1回答

在matlab中有计算分类时间的方法吗？

matlab、time、classification

我想学习分类时间不同的分类器与相同的训练和测试数据集。在matlab中有计算分类时间的方法吗？

浏览 0提问于2018-10-10得票数 0

回答已采纳

5回答

在二进制分类中，是否应该平衡测试数据集？

machine-learning、classification、class-imbalance

我有一个数据集，有4519个样本标记为"1"，18921个样本标记为"0“，在二进制分类练习中。我很清楚，在分类算法的训练阶段(在这种情况下，是随机森林)，应该平衡0/1样本的数量，以防止算法偏向大多数类。但是，测试数据集是否也应该是平衡的？换句话说，如果用"0“类的1000个随机样本和"1”类的1000个随机样本来训练我的模型，我应该用剩下的3519个"1“类样本来测试这个模型吗？不平衡的测试数据集对精确性、召回性和总体准确性指标有什么影响？谢谢

浏览 0提问于2018-11-29得票数 8

回答已采纳

2回答

kNN与Logistic回归

regression、logistic-regression、k-nn、bayes-error

你好，我把这个问题设为任选作业，并想征求一些意见。假设一个人取一个数据集，将其分成训练和测试数据集，然后尝试两种不同的分类过程。首先采用logistic回归方法，对训练数据和测试数据的误差率分别为20%和30%。接下来，他们使用1近邻，平均错误率(在测试和训练数据集上的平均错误率)为18%。根据这些数字，你更喜欢哪种方法用于分类目的(新的观测)？为什么？我倾向于说kNN，因为它是一种相当灵活的方法，平均提供了一个较低的错误。但这听起来不够正式，可能是一个有缺陷的、天真的结论。有意见吗？

浏览 0提问于2019-10-12得票数 0

1回答

在将新数据输入机器学习模型之前，您应该清理这些数据吗？

machine-learning、data-cleaning、text-classification

我有我的文本分类问题的训练/测试数据。我使用它们创建和测试了几个ML模型(LogisticRegression、RandomForest和LinearSVC)。训练数据和测试数据由多个文件组成，分为几类。它是从日期和数字中清除的，一切都是小写的，没有标点符号。在清洗日期的地方，我用“日期”一词代替了它们。同样的方法，我也适用于发票号码，用‘发票’一词代替。这极大地帮助了我的模型，因为这个特定的词被赋予了更高的权重，并且它改进了分类。现在我已经选择了最好的模型，我计划将它用于即将到来的新数据。至于这个新的数据，我是应该在它到达经过训练的模型之前清理它(就像我清理我的火车/测试数据一样)，还是

浏览 0提问于2022-09-01得票数 0

回答已采纳

2回答

堆叠:使用对训练或测试的预测来创建一级分类器的特性。

machine-learning、classification、data-leakage、stacking

这个问题很简单。在叠加中，0级模型的预测被用作训练1级模型的特征。然而，预测什么数据呢？直观地说，预测测试集并利用这些结果训练最终的分类器更有意义。我不确定这是否会导致数据泄漏，我不认为这会导致数据泄漏(因为最终的分类器只有初始分类器所具有的信息，即。只是从火车的数据-它不知道这些预测是好还是坏)。这个推理正确吗？

浏览 0提问于2022-09-26得票数 2

回答已采纳

1回答

Mahout朴素贝叶斯分类器

machine-learning、mahout、bayesian、classification

队员们，我正在做一个项目，在那里我需要将项目分类为特定的类别。我只有一个文件作为输入；它包含目标变量和空间分隔的特性。我的训练数据看起来就像类别名称选项卡DataString 管道塔式塑料管PVC管冷水管道三通上弯头向上弯头转下闸阀球阀油漆Tab象牙色黑烧乌木头盖紫罗兰土红黄矿石钛白镉黄光镉黄深服装，T恤衫，紧身牛仔裤，三轮车货嗯，我有一套很大的分类。我有几个问题，我是否在使用正确的数据进行培训？如果没有，我应该使用什么？，一旦我训练和测试我的模型，下一步是什么？如何使用输出？请帮我处理这个谢谢, 尼梅什

浏览 2提问于2012-04-17得票数 0

5回答

在训练和测试数据中保持相同的虚拟变量

python、dataframe、scikit-learn、prediction、dummy-variable

我正在用两个独立的训练和测试集在python中建立一个预测模型。培训数据包含数字类型的分类变量，例如邮政编码，91521,23151,12355，.，以及字符串分类变量，例如，城市“芝加哥”，“纽约”，“洛杉矶”，. 为了训练数据，我首先使用“pd.get_dummies”来获取这些变量的虚拟变量，然后用转换后的训练数据对模型进行拟合。我对我的测试数据进行同样的转换，并使用经过训练的模型来预测结果。但是，我得到了错误 ValueError: Number of features of the model must match the input. Model n_features is 1

浏览 13提问于2016-12-26得票数 47

3回答

对于不平衡的分类，是否应该平衡验证数据集？

classification、class-imbalance、imbalanced-learn

我正在为不平衡的数据建立一个二进制分类模型(例如，90%的Pos类和10%的Neg类)。我已经平衡了我的训练数据集，以反映一个50/50的类分割，而我的保留(训练数据集)保持与原始数据分布相似(即90%比10%)。我的问题是关于在CV超参数过程中使用的验证数据。在每次迭代折叠过程中，应： 1)平衡训练和考试两部分。或 2)训练褶皱应保持平衡，验证褶皱应保持不平衡，以反映原始数据分布和持久化数据集。我目前正在使用第一个选项来优化我的模型；但是，考虑到延迟数据集和验证数据集有不同的分布，这种方法有效吗？

浏览 0提问于2020-06-15得票数 10

回答已采纳

2回答

交叉验证--使用测试集还是验证集来预测？

validation、machine-learning

我有个关于交叉验证的问题。在机器学习中，我们知道有训练，验证，测试集。测试集是最终运行，以查看最终模型/分类器的性能。但是在交叉验证的过程中:我们将数据分成训练集和测试集(大多数教程都使用这个术语)，所以我很困惑。我们是否需要将整个数据分成三个部分:培训、验证、测试？因为在交叉验证中，我们一直在谈论与2组的关系:训练和另一组。有人能帮我澄清一下吗？谢谢

浏览 2提问于2017-04-27得票数 7

回答已采纳

1回答

XGBoostError:参数num_class的值0应该大于1

python、xgboost、xgbclassifier

我试图比较两种不同的特征集，用于将客户分为高价值、中等价值和低价值。这是我使用的代码： ltv_xgb_model = xgb.XGBClassifier(max_depth=5, learning_rate=0.1,objective='multi:softmax',n_jobs=-1).fit(X_train, y_train) 第一个数据集在培训数据中有11个客户，在测试数据中有2个客户。尽管用户数量有限，但对于其中一个特征集，该分类器能够达到50%的精度。第二个数据集在培训数据中有14个客户，在测试数据中有2个客户。虽然我们有一个更大的训练集，但是分类

浏览 3提问于2020-06-06得票数 1

回答已采纳

1回答

如何使用非常小的训练、测试和验证数据集来度量模型的特异性的可靠性？

machine-learning、statistics、generalization

这里是新手。我有一个小的数据集646个样本，我已经训练了一个合理的性能模型(~99%的测试和瓦尔的准确性)。让事情变得更复杂一点的是，这些类有些不平衡。这是一个二元分类问题。这是我对训练数据的混淆矩阵。 [[387 1] [ 1 73]] 关于测试数据： [[74 1] [ 0 10]] 关于验证数据： [[85 1] [ 0 13]] 训练特异性：.986 检测特异性：.909 验证特异性：.928 我认为测试和验证的特异性很低，而训练的特异性相对较高。然而，考虑到在测试和验证数据集中只遗漏了一个样本，我的真实世界的特异性是什么？是否有更好的泛化措施？给定负样本类的大小，

浏览 0提问于2019-03-04得票数 0

2回答

如何利用测试数据量化分类器(多类SVM)的性能？

svm、matlab、confusion-matrix

我正在使用比利时交通标志数据集在MATLAB中编写交通标志识别代码。数据集由培训数据和测试数据组成。我使用VL_HOG函数从VL_feat库中调整给定图像的大小并提取HOG特征，然后使用训练数据集中的所有标记训练多类支持向量机。我特别感兴趣的是探测到8个信号。问题1:我是否应该只使用这8个符号的训练集来训练模型，还是用整个训练数据集来训练模型，而忽略我在检测阶段不感兴趣的迹象？在训练多类支持向量机时，我想利用测试数据测试分类器的性能.问题2:有人能指导我如何做到这一点吗？我发现了一些与我正在寻找的可用这里类似的东西。如果我能获得定量数据，如百分比形式的混淆矩阵，那就太好了。谢谢!

浏览 0提问于2018-05-14得票数 0

1回答

是否可以只考虑精度来确定最佳的神经网络分类器？

machine-learning、neural-network、deep-learning

下面，您有6个不同的神经网络的训练和测试集的精度图。以下哪一种神经网络分类器更好？掌握这些鲜为人知的信息(训练和测试精度按历代图的数量计算)？我个人认为，第一个分类器(左上角)更好，因为它表明测试数据的准确性是稳定的，随着历元数的增加。 📷

浏览 0提问于2019-04-10得票数 2

1回答

测试和列车组中的特征工程(组合数据或列车和测试分开)

predictive-modeling、feature-engineering、data-science-model

背景:作为预测分析的一部分，我得到了一个训练和测试数据集。训练数据和测试数据都有数值和分类预测变量，另外，训练数据有一个数值目标变量。目的是在测试中预测目标。 train = C1，c2，x3，x4，y = Xc，X，y test = C1，c2，x3，x4 = Xc，X Xc，X表示范畴变量和数值预测变量。我试图从分类变量Xc中生成额外的特性，例如计数特性、count_mean、count_variance和类似的特性，这些特性是由分类变量和数值变量(均值、方差等)组合而来的。问题:在组合数据集train+test上生成特性更好，还是在训练数据集和测试数据集中单独生成特性更好？当一个分

浏览 0提问于2018-06-05得票数 1

1回答

韦卡:如果测试跑后是训练跑，那么训练有帮助吗？

classification、weka、bayesian

我有个疑问。我理解了交叉验证和分裂的概念，分类器将从训练数据学习和测试测试数据分裂。如果我首先使用“使用培训数据”运行分类，然后在分类选项卡中使用"SUpplied测试集“选项，然后再次运行，会发生同样的情况吗？为了在分类选项卡中更清楚地说明，我运行了两次...first，训练数据集被上传到预处理选项卡下，然后在分类选项卡“提供测试集”中运行测试集。那么，在测试数据上执行时，模型是否使用了以前所做的培训？我用了朴素的贝叶斯分类器。我也怀疑是否所有的分类器都是从训练数据中学习，还是仅仅从神经网络、决策树这样的分类器中学习？

浏览 0提问于2013-10-05得票数 0

1回答

使用RapidMiner中的测试数据集

machine-learning、classification、rapidminer

我正在尝试创建一个包含训练数据集的模型，并希望标记测试数据集中的记录。我在网上找到的所有教程或帮助都有关于仅对一个数据集(即训练数据集)使用交叉验证的信息。我找不到如何使用测试数据。我尝试将结果模型应用于测试集。但是测试集似乎给出了不同的结果。比预处理后的训练集更多的属性。这是一个文本分类问题。最后，我得到了一些类似如下的输出 18.03.2013 01:47:00 Results of ResultWriter 'Write as Text (2)' [1]: 18.03.2013 01:47:00 SimpleExampleSet: 5275 examples, 36

浏览 3提问于2013-03-18得票数 1

回答已采纳

1回答

最小冗余最大相关性(MRMR)分类方法

classification、feature-selection

在使用MRMR选择特征后(通过量化训练数据的原始特征空间)，应该使用量化值还是原始值对测试数据进行分类？

浏览 0提问于2018-12-27得票数 0

2回答

用于训练和测试的神经网络数据

neural-network

我有一个关于ANN的训练和测试数据的问题。在分类之前，测试数据是否应该经过特征提取过程？我是这个领域的新手。我做的是对的吗？我将数据集分为80%的训练和20%的测试。两个集合，我都提取了特征。对于训练数据，我将其放入训练网络，但不是用于测试数据。然后转到分类。这是正确的吗？因为我的SV说测试数据不应该经过特征提取过程。我想知道如果没有提取特定的特征，ANN如何识别输入。为我糟糕的英语道歉。如果任何人有我可以参考的链接或日志，请提供它。非常感谢。

浏览 2提问于2014-02-11得票数 0

1回答

机器列环试验数据

conv-neural-network

我正在研究图像分类。对于CNN图像分类，我可以使用验证数据作为测试数据吗？或者我应该把数据分成三个(训练，验证，测试)？

浏览 2提问于2022-05-20得票数 0

2回答

如何在保持相同转换的情况下，将字符串变量转换为两个不同数据集中的分类变量？

python、pandas、scikit-learn

我正在构建一个模型，我在Pandas中有两个数据帧。一个是训练数据，另一个是测试数据。其中一个变量是国家。我在考虑使用OrdinalEncoder()将country列转换为分类列。例如：“美国”在新列中将是1，“巴西”将是2，依此类推。但是，我希望对这两个数据帧进行相同的转换。如果训练数据中的"USA“作为分类列变为1，我希望测试数据中的"USA”也变为1。这有可能吗？怎么会这样呢？提前感谢

浏览 23提问于2019-12-17得票数 0

3回答

重叠样本的训练测试分割

machine-learning、python、classification、scikit-learn

我正在对时间顺序传感器数据进行分类(在Python中)，在这里，我将传感器数据分割成样本，具有一定的窗口长度(例如3秒)。然而，这些样本也是相互重叠的。例如，第一个示例是0s \rightarrow 3s，第二个是2.7s \rightarrow 5.7 s. 我现在在想，我怎样才能对这些样品进行适当的列车测试。现在，我看到了两种方法来做到这一点：先对样本进行分割，然后将样本“放置在边界”，以避免训练数据与测试数据的重叠。但是，这并不是最优的，因为我希望所有数据集都有培训和测试集的样本。否则，我只需要测试数据序列上的分类器，这可能与用于训练的序列非常不同。首先对样本进行洗牌，然后将它们分割

浏览 0提问于2018-06-26得票数 2

1回答

处理训练和测试数据中的不同因素水平

r、machine-learning、classification、random-forest、categorical-data

我有一个20列的训练数据集，所有这些都是我必须用于训练模型的因素，我已经获得了测试数据集，我必须应用我的模型进行预测并提交。我在做最初的数据探索，出于好奇，我检查了训练数据和测试数据的级别，因为我们正在处理所有的分类variables.To，我很沮丧，大多数类别(变量)在训练和测试数据集中都有不同的级别。例如 table(train$cap.shape) #training data column levels b c f k x 196 4 2356 828 2300 table(test$cap.shape) #test data b

浏览 0提问于2016-11-11得票数 4

1回答

所生成的混淆矩阵的大小使用混淆块函数是不对的，为什么？

matlab、machine-learning、computer-vision、classification、svm

我正在使用比利时交通标志数据集在MATLAB中编写交通标志识别代码。可以找到此数据集。数据集由培训数据和测试数据(或评估数据)组成。我调整了给定图像的大小，并使用VL_HOG函数从VL_feat库中提取HOG特性。然后，我使用训练数据集中的所有标记来训练多类支持向量机。在训练集中有62类别(即不同类型的交通标志)和4577帧。我使用fitcecoc函数来获得分类器。在训练多类支持向量机时，我希望使用测试数据测试分类器的性能，并分别使用predict和confusionmat函数。由于某些原因，返回的混淆矩阵的大小为53乘53，而不是62乘62。为什么混淆矩阵的大小与类别数不相同？

浏览 2提问于2018-05-16得票数 0

回答已采纳

1回答

R:变量在节点和数据中有不同的级别数。

r、naivebayes、bnlearn

我想使用bnlearn进行一个带有朴素贝叶斯算法的分类任务。我使用，其他都是离散的。据我所知，bnlearn不能使用连续变量，因此需要将它们转换为因子或离散化。现在，我想把所有的特性转换成因素。然而，我遇到了一些问题。下面是一个示例代码 dataSet <- read.csv("creditcard_german.csv", header=FALSE) # ... split into trainSet and testSet ... trainSet[] <- lapply(trainSet, as.factor) testSet[] <- lapply

浏览 0提问于2018-04-26得票数 0

1回答

rpart:是否需要培训数据？

r、rpart

我有一个问题来理解一些基本知识，所以我被一个回归树困住了。我用一棵分类树来检验环境参数对我测量的树木生长因子的影响。长话短说：将数据分成训练数据和测试数据的目的是什么?我什么时候需要它？我的搜索显示了一些例子，他们要么不做，要么做，但我找不到背景。这仅仅是为了验证修剪吗？先谢谢你！

浏览 1提问于2017-10-28得票数 0

回答已采纳

3回答

此场景的文本分类技术

machine-learning、classification、cluster-analysis、data-mining

我对机器学习算法完全陌生，我有一个关于数据集分类的快速问题。目前有一个由两列消息和标识符组成的培训数据。消息--从包含时间戳和一些文本标识符的日志中提取的典型消息--应该根据消息内容对类别进行分类。培训数据是通过从工具中提取特定类别并相应地加上标签来编制的。现在，测试数据只包含消息，我正试图获得相应的分类。在这种情况下，哪种方法最有帮助？是监督学习还是非监督学习？我有一个经过训练的数据集，我正试图预测测试数据的类别。谢谢你，亚当

浏览 4提问于2017-08-30得票数 0

回答已采纳

2回答

如何检查训练集和测试集的分布是否相似

machine-learning、classification、dataset、distribution

我一直在玩Kaggle比赛，我发现训练集和测试集的分布是不同的，所以我想知道如何检查训练集和测试集的分布是否相似。然后搜索它，找到一个博客，通过将它转换成一个二进制分类问题来检查分布的相似性。如果获得较高的AUC，则训练集和测试集的分布必须不同。他提出的想法如下：如果存在协变量移位，那么在混合训练和测试时，我们仍然能够准确地分类每个数据点(无论是来自测试还是来自测试)的起源。但我还是不明白为什么他能用这种方式检查这两个分布的相似性。还有其他方法来检查它的相似性吗？如果有人能帮我，我会很感激的。

浏览 0提问于2019-04-18得票数 10

回答已采纳

2回答

小数据集(但抽样相同)的高精度度量是否意味着一个好的模型？

neural-network、cnn、image-classification、cross-validation

我一直在训练我的CNN每班200张图片，以解决分类问题。这是一个二进制分类问题。随着测试数据的数量(每班25个)，我得到了很好的准确性，精确性和召回值。这是否意味着我的模型真的很好？

浏览 0提问于2019-08-09得票数 2

1回答

R:训练集和测试集对分类解释变量具有不同的值: Logistic回归

r、machine-learning、statistics、logistic-regression、categorical-data

我在试着预测一个基因变体所属的类别。我的数据帧在我的代码中被称为Genetic。我将我的数据帧分成训练和测试数据集，如下所示： set.seed(1) train=sample(54248,27124) test=-train Genetictrain=Genetic[train,] Genetictest=Genetic[test,] 问题是我的一个解释变量(它是分类的，数据帧的一列)在训练集(Genetictrain)和测试集(Genetictest)中采用了不同的值。解释变量称为遗传$后果。遗传$后果的水平是： [1] "3_prime_UTR_variant"

浏览 0提问于2018-11-05得票数 0

1回答

如何解释训练和测试的准确性几乎是一样的？

machine-learning、accuracy、naive-bayes-classifier

注意-我读过这的文章，但仍然不明白我有一个朴素的贝叶斯分类器，当我输入我的训练数据来测试准确性时，我得到了63.05%。当我输入测试数据时，准确率为65.00%。为什么训练和测试的准确性几乎相同？关于信息，我的数据被分割成70/30。这是否意味着没有过度适应？

浏览 0提问于2021-02-27得票数 2

回答已采纳

1回答

深度学习与混淆矩阵

confusion-matrix、conv-neural-network

我用角码训练我的模型进行二值分类。我在ImageNet上使用了Resnet预器，我获得了95%的精度。在我的数据集中，我有9004张用于训练的图像分为两类，2250张用于测试的图像被分成两类。但是混乱矩阵给了我 4502 04502 0 有人能帮我知道这个执政官的意思吗？

浏览 2提问于2020-04-13得票数 0

1回答

什么时候用翻转和旋转来增强图像的数据集？

training、methodology

我是机器学习的初学者，所以如果我的问题有点琐碎，我很抱歉。假设我有一个图像数据集，我想对其进行分类，比如说使用一个神经网络。对我来说，尝试通过翻转和旋转图像来增强我的数据集是有意义的，以便获得更多的训练观察结果。在某种程度上，我希望将我的数据集拆分到一个训练集和一个测试集中，并且可能还需要对训练集进行额外的细分以进行交叉验证。我的问题是:何时应该使用翻转/旋转的图像增强数据集？如果我在训练和测试样本中分割数据集之前就这样做了，那么测试样本将包含例如训练样本中的观察结果的旋转，所以我觉得它可能是“受污染的”，并且低于--代表测试错误。对于交叉验证的分割也是一样的。是否就如何进行达成了共识？而

浏览 0提问于2019-05-11得票数 1

1回答

规范培训和测试数据分离前后的时间序列数据？

time-series

我在时间序列数据上使用了一个分类模型，在将数据分解为训练和测试之前，我对数据进行规范化。现在，我知道训练数据和测试数据应该分开处理，以防止数据泄漏。在这里，规范化步骤的正确顺序是什么？我是否应该分别应用步骤1、2、3来训练和测试使用滑动窗口分割数据后的数据？我在这里使用一个滑动窗口来比较每一个小时(测试)和它之前的24小时数据(火车)。这是我目前在管道中使用的命令。使用滑动窗口(长度为24小时(列车)和每1小时(测试)一次)将每个hourStandardizationSplit数据放入列车并进行测试，适合使用列车数据预测使用测试数据的模型。

浏览 0提问于2020-07-04得票数 1

回答已采纳

1回答

基于小数据集的转移学习和CNN的比较

machine-learning、neural-network、cnn、transfer-learning

我在CNN做图像分类，我有一套3200 imges的训练集和400张图像的训练集。我使用了两种不同的方法来完成这个分类:转移、学习和从头开始创建CNN。在转移学习的情况下，我的准确率为85%，而从零开始构建网络的准确率为89%。但是通常一个小的数据集不应该传输精益有更好的性能？首先要考虑的是，我使用早期停止作为正则化技术，在迁移学习的情况下，这在18世纪停止了训练过程，而CNN从零开始我到达了100时代，这是我为训练所强加的时代数。有人能帮我解决我的疑虑吗？提前谢谢。

浏览 0提问于2019-12-14得票数 1

回答已采纳

2回答

验证集性能提高，测试集性能下降。

image-classification、cnn、cross-validation、convolution

我正在为一个三级分类问题训练CNN模型。为了做到这一点，我正在逐步解冻一个预先训练过的Resnet-18网络中更多的卷积块。问题是，在解冻块(例如块3和前面的块)之后，验证集上的性能确实提高了，但是测试数据集上的性能没有改善(相对于块2和前面的块)。现在，我想知道保持解冻块是否“合理”(可以这么说)，以了解这如何影响测试数据集上的性能。我觉得我只是在利用某种运气，因为模型更适合测试数据集，只是偶然而已。简而言之，我想我的问题是我是应该选择验证性能模型还是测试性能模型？

浏览 0提问于2018-06-13得票数 0