任何将数据拆分成训练、测试、有效数据并保存在文本jupyter中的方法 - 腾讯云开发者社区

、

我在测试我的模型时遇到了问题，当我训练我的模型时，它工作得很好。然而，当我尝试将测试数据放入模型中时，它给出了大小不匹配的错误，这是我所期望的。我把我的数据分成了70%的训练和30%的测试。我明白为什么会这样，但我不能解决它。 net = Net(n_feature=244, n_hidden=10, n_output=244) print(net) optimizer = torch.optim.SGD(net.parameters(), lr=0.2) loss_func = torch.nn.MSELoss() 这里还有一些代码。 def test(): Xtest = tor

浏览 20提问于2020-12-10得票数 0

1回答

模型:在培训和部署期间

、

众所周知，在模型训练期间，我们坚持测试集。然而，我实际上在部署过程中发现，如果在整个数据集(train+test)上使用新的模型序列，实际上在预测真正的“未见”数据方面也会产生相当好的结果。我正在寻找对这种方法的评论。有什么问题吗？特别是，在这种方法中，我将对整个数据集应用任何类型的转换，例如标准化/规范化/分类编码。对部署来说不是更好吗？(与传统方法相比，所有这些转换只在火车集中进行，有时无法对火车集中缺少的某些类别的数据进行编码。) 有经验分享和批评我的方法吗？蒂娅。

浏览 0提问于2022-04-06得票数 0

回答已采纳

1回答

在Tensorflow中拟合模型时，批量大小和纪元数应该有多大？

、

我正在从事物体检测的工作。我的训练集是5984，测试集是1496 (KITTI跟踪训练数据集)。在Tensorflow中拟合模型时，批量大小和纪元数应该有多大？有没有什么基于数据输入大小的经验法则？我应该将其拆分为训练/val/test，还是继续使用当前拆分的train/val？

浏览 14提问于2017-07-03得票数 0

1回答

我如何实现稳定与科学工具包-学习RandomForestClassifier？

、、、、

我有3.25年的基于时间的数据，我正在使用scikit-learn的RandomForestClassifier来尝试和分类实时数据。我的数据集大约有75,000行和1,100列，我的列车/测试间隔是火车的前3年(66,000行)，最后的0.25年(3个月或9,000行)用于测试。由于每次培训都有可变性，所以有时我并不能很好地对测试data...but进行分类。所以，我尝试的是一遍又一遍地重新训练分类器，直到do看到分类测试数据的精确性，然后保存到磁盘中，以便在新的数据输入时用于实时分类。有些人可能会说，这个模型与测试data...which的拟合度过高，但我认为，由于训练中的随机性，在第

浏览 3提问于2016-06-03得票数 0

2回答

交叉验证与改进

、、

我想知道交叉验证过程如何改进模型。我对这一领域完全陌生，并且热衷于学习。我理解交叉验证的原理，但不明白它如何改进模型。假设模型被分成4倍，如果我在第3、第4和最后一个上训练我的模型，那么这个模型会训练得很好。但是，当我重复这一步骤，在最后3/4上训练模型，在第1次测试时，大部分的训练数据已经被模型“审查”了？在数据已经被发现的情况下，这个模型不会得到改进，对吧？用不同的训练数据集制作的模型是否“平均”？提前谢谢您的时间！

浏览 1提问于2020-03-08得票数 0

回答已采纳

2回答

测试数据中没有目标响应变量

、

我有两个数据集，它们是训练和测试集。训练数据有一个目标变量，但是测试集没有。我应该做些什么来解决测试集的问题？

浏览 0提问于2021-08-10得票数 0

2回答

不平衡分类问题的k-折叠CV估计测试AUC

、、、、

我有一个不平衡的分类问题。我首先将数据划分为训练集(数据集A)和测试集(数据集B)。然后，我使用R包ROSE同时对Dataset A中的多数类进行了欠采样，并对少数类进行了过采样。这产生了一个平衡集(Dataset C)，其行数与Dataset A一样多。我已经在数据集C和计算训练AUC上训练了我的模型。现在我想使用k倍交叉验证来估计(即不使用Dataset B)测试AUC。我该怎么做才好呢？

浏览 0提问于2018-04-04得票数 1

1回答

在选择最佳超参数组合后，SparkML CrossValidator是否重新适合完整的训练数据集？

、、、、

在训练数据集上交叉验证超参数网格后，SparkML的CrossValidator是否重新适合整个训练数据集？如果不是，它会从交叉验证的哪一部分中选择用于推断的bestModel？拟合的CrossValidator使.transform()方法可用。为此，CrossValidator是否使用最佳超参数在整个训练/交叉验证数据集上重新训练，并使用重新拟合的模型进行推理？或者，bestModel用于推断所有交叉验证文件夹中的最佳性能模型(即，来自最佳性能超参数组合的最佳文件夹中的模型，仅对该文件夹的数据进行训练)？我之所以这样问，是因为SparkML CrossValidator和scikit

浏览 22提问于2021-03-23得票数 0

2回答

Weka InCompatible在文本分类中的训练和测试集

、、

我有两个关于句子是否包含提到药物不良事件的数据集，训练和测试集都只有两个字段文本和标签{不良事件，无不良事件}我已经使用weka和stringtoWordVector过滤器在训练集上使用随机森林构建了一个模型。我想测试构建的模型，方法是从测试数据集中删除类标签，在其上应用StringToWordVector过滤器，并使用它测试模型。当我尝试这样做时，它给我一个错误，说训练和测试集不兼容，可能是因为过滤器为测试数据集识别了一组不同的属性。我如何解决这个问题，并输出测试集的预测。

浏览 0提问于2018-03-12得票数 0

1回答

理解机器学习的交叉验证

、、、

下列有关交叉验证的内容是否正确？：将训练数据分成不同的组，除一个训练数据集外，所有训练数据集都用于训练模型。一旦对模型进行了训练，就会使用“遗漏”训练数据来执行超参数调优。一旦选择了最优的超参数，将测试数据应用到模型中，给出一个结果，然后将其与经历了类似过程但训练数据集组合不同的其他模型进行比较。在此基础上，选择了测试数据最优的模型。

浏览 1提问于2020-09-21得票数 0

回答已采纳

1回答

由于与训练集生成规则相关的特性而导致的过度拟合

、、、、

作为背景，我使用一个使用Keras构建的深度神经网络将输入分类为5类。该网络目前的结构是：输入层(~450个节点) 致密层(750个节点) 辍学层(750个节点，辍学率= 0.5) 致密层(5个节点) 我遇到的问题是过度适应。我的模型在坚持测试集(我的训练集的一部分)上表现很好，精确度在99%左右。然而，当我将模型应用于未标注的数据时，它只能将67%的观测数据分类到任何类别，甚至在考虑这些分类的正确性之前！我认为问题可能围绕我的特点和培训集生成过程。我使用基于规则的字符串匹配方法生成了训练集。这就产生了一套大约360万次观测(占人口的10%)的培训集。但是，我输入层的最大特性之一是嵌入

浏览 0提问于2019-12-04得票数 4

回答已采纳

2回答

“训练数据集”、“测试数据集”和“验证数据集”的区别

、、

我有250张人脸图像，我将用这些图像来训练模型。为了方便起见，我要做的是挑选前10个图像，并使用leave-one-out交叉验证来训练模型，以便每个图像都有机会成为测试图像。我所理解的是，在这种情况下，我的训练数据集的大小是9，测试数据集的大小是1。之后，我将获得下10个图像，然后使用它们来训练模型。在这种情况下，我的训练数据集的大小将是19，测试数据集将是1(这将重复发生20次，以便每个图像都有机会出现在测试集中)。同样，这个过程一直持续到我使用了所有的250张图像来训练模型。我不理解的是“验证数据集”。我做错了吗？在Stackoverflow上有一个答案，但我不清楚。这就是我发布这个

浏览 2提问于2014-07-31得票数 1

1回答

在Jupyter notebook中，如何使用回调和/或小部件事件手动终止Keras培训？

、、、、

我正在使用Jupyter实验室中的Keras来训练模型。我希望能够手动停止训练并优雅地退出试衣。现在我可以终止训练的唯一方法是通过KeyboardInterrupt。我如何使用Keras回调来优雅地终止训练，无论是通过侦听KeyboardInterrupt还是从小部件按钮接收事件？还是有别的办法？谢谢! 另请参阅Does interrupting keras training in a Jupyter notebook save the training? 编辑：我尝试捕获KeyboardInterrupt (即由Jupyter中的stop按钮发送的SIGINT )，如下所示：

浏览 31提问于2021-07-22得票数 0

2回答

如何在推荐系统中拆分培训/测试

、、

我正在使用MovieLens10M数据集，预测用户的评分。如果我想公平地评估我的算法，我应该如何分割我的训练和测试数据？默认情况下，我认为数据被分割成火车和测试集，其中“测试”包含以前在培训集中看不到的电影。如果我的模型要求每部电影至少在训练集中被观看一次，我应该如何分割我的数据？对于所有数据，我是否应该从每个用户的评等中获取除N以外的所有数据，并评估我在被搁置的NxUser_num评级上的性能？

浏览 0提问于2015-08-17得票数 11

1回答

最终模型拟合-子集与整个训练数据

、、

如果我将整个可用培训数据的子集用于模型优化和超级参数选择，那么是否应该将最终模型与子集培训数据集或整个可用的培训数据相匹配？例如，如果我有1万个可用的样本，并且我将一个100 K的随机样本作为测试保留，而200 K的随机样本作为模型调优的训练数据集，那么用于在1) 200 K训练数据集上拟合最终模型的调优超级参数，还是2) 900 K可用数据(不包括测试保留)？换句话说，超参数可以推广到整个种群吗？我假设持久化数据集和训练数据集都是随机选择的，并遵循原始数据中的类分布。

浏览 0提问于2020-06-24得票数 0

回答已采纳

2回答

标记数据异常检测中的交叉验证

、、、、

我正在从事一个项目，在那里我训练异常检测算法，隔离森林和自动编码器。我的数据是标记的，所以我有基本的真实性，但问题的性质需要无监督/半监督异常检测方法，而不是简单的分类。因此，我将只使用标签进行验证。既然我不会用标签来训练模型，而不像在有监督的学习中使用X_train、X_test、y_train和y_test，那么在这里进行模型验证的正确方法是什么？如果这是监督学习，我会把数据分成3部分:训练，简历和测试，做K折叠简历。但现在我觉得我可以简单地把我的数据分成2:训练和测试，简单地拟合所有的火车数据，预测和调整模型根据。最后，对测试数据进行预测。所以我的问题是，我应该在这个模型中加入某种

浏览 0提问于2020-07-16得票数 1

1回答

使用GridSearchCV时是否需要拆分数据？

、、、

Gridsearhcv使用StratifiedKFold或KFold。因此，我的问题是，在使用网格搜索之前，我是否应该将数据分成训练和测试，然后只对测试数据进行拟合？我不确定是否有必要，因为cv方法已经拆分了数据，但我已经看到了一些预先拆分数据的示例。谢谢。

浏览 0提问于2017-07-29得票数 13

回答已采纳

1回答

TensorFlow2.0Keras不会保存最佳模型，即使有验证数据，仍然给我:只能使用可用的val_acc保存最佳模型，跳过

、、

在fit函数的训练过程中，我提供了训练数据和验证数据作为数据集迭代器。我想通过验证数据集的准确性来保存最佳模型。然而，在每个时期的训练过程中，我会像Can save best model only with val_acc, skipping.一样收到警告。我用metrics = ['accuracy']编译了模型，在回调中声明了monitor='val_acc'，并提供了验证数据作为数据集迭代器，就像fit中的validation_data=my_val_dataset一样。我还遗漏了什么？我真的很感谢任何人的帮助。我的Jupyter笔记本是my Gi

浏览 55提问于2019-09-24得票数 2

回答已采纳

1回答

如何在训练和验证集上输入后使用交叉验证？

、、

所以我把自己搞糊涂了。目前，我已经获得了大约800个实例的数据集。我将其拆分为训练集和验证集，因为缺少值，所以我使用sklearn中的SimpleImputer，并对训练集进行fit_transform-ed，然后对测试集进行转换。我这样做是因为如果我想预测新的实例，如果有缺失值，那么我需要用我估算测试集的方法来估算它。现在我想使用交叉验证来训练和评分模型，但这将涉及到使用整个数据集并将其划分为不同的训练集和测试集，因此我担心由于拟合输入值而导致训练集中的泄漏？

浏览 30提问于2018-12-18得票数 3

2回答

如何在不耗尽内存的情况下使用Tensorflow对CNN进行大量图像训练？

、、、

我正在尝试使用CNN对一些图像数据进行分类。我有大约38000张不同大小的图片(比如大约400x400px)。我最初只使用图像的一个子集，并使用Open CV将它们加载到列表中，但现在我尝试使用所有图像，我的RAM用完了。在训练过程中处理大量数据的正确方法是什么，可以批量加载和训练吗？如果是这样的话，是怎么做的？我在Python Jupyter Notebook中工作。

浏览 0提问于2020-11-25得票数 0

1回答

滑雪板StratfiedShuffleSplit

、

有人能帮我理解StratifiedShuffleSplit做什么吗？我是这个图书馆的新手。我理解分层抽样背后的原理，然而，就代码而言，StratifiedShuffleSplit函数到底返回了什么？我正在读的这本书有以下代码，但是我没有完全遵循。这个函数是否实际上在数据上添加了一个索引来区分测试和训练，这就是为什么他们会使用.loc？它到底是将income_cat列拆分为什么呢？谢谢! from sklearn.model_selection import StratifiedShuffleSplit split = StratifiedShuffleSplit(n_splits=1, t

浏览 1提问于2018-11-13得票数 1

回答已采纳

1回答

如何比较Python中的两个大文本文件？

、、、、

数据集：我有两个不同的文本数据集(用于训练和测试的大型文本文件，每个文件包含30,000句句子)。部分数据如下：“富尔顿县大陪审团星期五说，对亚特兰大最近的初选进行的调查表明，没有证据‘任何违规行为’发生。” 问题：我如何将训练中未见的测试数据中的每个单词替换为Python中的“灌篮”这个词？我的解决方案：我是否应该使用“嵌套的for-循环”来比较火车数据的所有单词和测试数据的所有单词，同时使用“if -语句”来表示测试数据中是否有任何单词不在列数据中，然后用"unk“替换？ #open text file and assign it to varaible with the nam

浏览 2提问于2019-10-01得票数 0

2回答

验证/测试集唯一性问题

、、、、

希望这是一个简单的问题，但对于如何最好地分离训练/验证/测试集，我有点不清楚。我说了100个A类的例子，我把文本分为A类(我所关心的)或B类(可能是世界上的任何文本)。显然，我有更多的B类的例子。当我将数据拆分为train/validate/测试集时，测试集(它根本不用于培训/调优)是否必须没有用于培训的A类示例？在现实世界中(鉴于我的样本有限)，它将对A类进行分类的文本将有一些精确的A类示例，但并不总是这样(可能会有变化-我并不是所有的都有)。我可以确保测试集有唯一的B类文本，但不清楚我是否还必须在测试集中维护完全唯一的A类示例，因为现实世界不一定是这样的。在测试集的训练中也有x%的A

浏览 0提问于2021-12-16得票数 0

回答已采纳

4回答

在IBM DSX上部署scikit学习管道

如何根据IBM数据科学经验部署训练有素的scikit学习管道？我可以在Jupyter笔记本上这样做吗？

浏览 0提问于2017-04-11得票数 0

2回答

训练精度很高，验证精度很高，但测试集的精度很低。

、、、、

我已经将数据集(大约28K图像)划分为75%的训练集和25%的测试集。然后，我随机抽取了15%的培训集和15%的测试集来创建验证集。目标是将图像分为两类。精确的图像样本不能共享。但它和附件中的那个相似。我使用这个模型:带有imagenet权重的VGG19，最后两层，可训练的，以及4个密集的层。我还使用ImageDataGenerator来增强图像。对该模型进行了30个历次的训练，发现训练精度为95%，验证精度为96%，在测试数据集上训练后，仅下降到75%。我已经尝试了正规化和辍学，以解决过度适应，如果它是痛苦。我还做了一件事，看看如果我使用测试集作为验证集并在同一个测试集上测试模型会发生什么

浏览 3提问于2019-01-16得票数 2

回答已采纳

2回答

用于文本摘要的序列到序列模型的详细内容是什么？

、、

如何训练翻译的编解码模型是很清楚的:每个源序列都有相应的目标序列(翻译)。但是，就文本摘要而言，摘要要比其文章短得多。根据的说法，每个源句都有其摘要(短或长)。但我很难想象，在每个句子都有相应的摘要的情况下，就会有这样的数据集。那么，如果我是对的，有什么可能的方法来训练太阳模型？否则，是否有任何免费的数据集进行文本摘要？

浏览 2提问于2017-04-18得票数 0

回答已采纳

2回答

在jupyter笔记本中运行经过训练的kaggle模型

、

我已经在kaggle中构建和训练了模型，并下载了它的输出。现在如何在jupyter notebook中本地运行经过训练的模型来进行预测？

浏览 1提问于2019-05-06得票数 0

5回答

数据科学中的训练数据和测试数据

我是python中相对较新的数据科学，在探索一些关于数据科学的竞争时，我对“训练数据集”和“测试数据集”感到困惑。一些项目合并了这两个项目，另一些项目则保持分离。拥有两个数据集的基本原理是什么？任何建议都将是有益的，谢谢

浏览 1提问于2017-04-25得票数 0

1回答

关于使用独立数据集验证weka文本分类的问题

、、、

我正在尝试使用weka对垃圾邮件和非垃圾邮件进行分类。将上百条数以千计的标记垃圾邮件和另外100条数千条标记的非垃圾邮件作为训练数据集，我使用stringtowordvector作为过滤器来训练分类器。crossValidateModel的结果是非常good.But的，我想使用一个独立的测试集来评估分类器，以确保从训练集中对任何其他msg进行分类是可靠的。我的问题是：我还必须在测试数据集上使用stringtowordvector，以创建一个独立的.arff文件，该文件独立于训练arff file.The，在这两个.arff文件中，两个数据集中出现的同一个词分别具有两个不同的属性索引。例如

浏览 3提问于2012-08-30得票数 0

2回答

释放内存分配库达火把？

、

RuntimeError:库达没记忆了。尝试分配12.00 MiB (GPU 1；11.91 GiB总容量；10.12 GiB已分配；21.75 MiB空闲；56.79 MiB缓存) 我在火把训练中遇到了前面的错误。我在用手电筒在jupyter笔记本上。有没有办法把gpu内存释放在jupyter笔记本上？

浏览 3提问于2020-02-05得票数 2

2回答

二值分类器训练初期验证数据集的高丢失和高精度

、、、

我正在用模拟数据训练一个ResNet50网络，我的验证数据集是实验数据。仿真数据不能100%准确地表示实验数据。该网络的目的是为了实现二进制分类器。在最初的训练状态中，我注意到一些非常奇怪的事情如下：训练的交叉熵损失为0.69，大致等于-log(50%)，准确率为50%。这在逻辑上是有道理的，因为模型基本上没有学到任何东西，只是随机猜测而已。验证(实验)数据集的损失也为0.69，但准确率接近于0%或100%。我理解这部分是由模拟(训练)和实验(验证)数据之间的差异造成的，但它可能告诉我们一些更深层次的东西，例如，模拟数据集与实验数据是如何不同的。我想不出来，我很想听听你的意见。请参考下面的指

浏览 0提问于2022-10-15得票数 1

2回答

如何分割和训练生物学数据模型

、

我使用的基因表达数据，是浮动数字，并希望训练分类器考虑到二进制分类。由于我是这个领域的新手，我有一些问题：我使用的第一个分类器是SVM。我正在使用sklearn工具，它需要在培训和测试数据集中分离数据集。据我所知，为了构建模型，需要将数据集中的数据集和验证数据集(找到模型的参数)分开，而对于超参数的微调，则需要一个测试数据集。有趣的是，考虑到我在查看sklearn文档时发现的情况，建议只对火车和测试数据集进行分割。验证数据集上没有断言。因此，我怀疑，我是否正确地运行分类器。下面是我使用的代码： from sklearn.model_selection import train_tes

浏览 0提问于2021-06-10得票数 1

3回答

此场景的文本分类技术

、、、

我对机器学习算法完全陌生，我有一个关于数据集分类的快速问题。目前有一个由两列消息和标识符组成的培训数据。消息--从包含时间戳和一些文本标识符的日志中提取的典型消息--应该根据消息内容对类别进行分类。培训数据是通过从工具中提取特定类别并相应地加上标签来编制的。现在，测试数据只包含消息，我正试图获得相应的分类。在这种情况下，哪种方法最有帮助？是监督学习还是非监督学习？我有一个经过训练的数据集，我正试图预测测试数据的类别。谢谢你，亚当

浏览 4提问于2017-08-30得票数 0

回答已采纳

2回答

在交叉验证后对所有训练数据进行scikit-learn训练

、

我正在使用scikit-learn来训练分类器。我还希望进行交叉验证，但在交叉验证之后，我希望对整个数据集进行训练。我发现cross_validation.cross_val_score()只返回分数。编辑:我想用我所有的数据来训练具有最佳交叉验证分数的分类器。

浏览 1提问于2014-03-24得票数 2

1回答

在sklearn中使用支持向量机时如何实际使用验证集

、

在使用SVM时，我发现对原始数据集执行三向拆分是一种很好的做法，类似于70/15/15的拆分。这种分割将对应于%70用于培训，%15用于测试，%15对应于所谓的“验证”。我很清楚为什么这是一个很好的实践，但我不确定实际执行这一操作所需的具体细节。很多在线资源讨论了这个过程的重要性，但是我似乎找不到对这个过程的明确描述(或者至少是算法描述)。例如，sklearn讨论了，但在提供任何可靠的工具之前就停止了。我的想法是：使用训练集训练算法使用测试集查找错误率 ?？调整参数再次获取错误率，使用验证集如果有人能给我指明一个好资源的方向，我会很感激的。

浏览 1提问于2014-01-26得票数 3

1回答

Strucchange声称没有断点日期，但仍然会报告它们

、

我不是结构变化分析方面的专家，所以在这一点上请容忍我。我在这里有一组季度数据集(作为可重现的数据集)： +------------+--------------+--+--+ | date | abandon_rate | | | +------------+--------------+--+--+ | 2009-07-01 | 0.0833 | | | | 2009-10-01 | 0.2500 | | | | 2010-01-01 | 0.1000 | | | | 2010-04-01 | 0.0833 | |

浏览 0提问于2018-07-22得票数 0

4回答

衡量机器学习模型是否过度拟合的正确方法是什么？

、

我理解过拟合和欠拟合的直观含义。现在，给定一个基于训练数据训练的特定机器学习模型，您如何判断训练是过拟合还是欠拟合数据？有没有一种量化的方法来衡量这些因素？我们能不能看看误差，然后说它是过拟合还是欠拟合？

浏览 0提问于2012-09-15得票数 4

回答已采纳

1回答

Python3:从HTML (.txt)站点提取文本行到Jupyter notebook

全新的Python，只用了2天。我正在尝试从HTML到Jupyter笔记本中提取特定的文本行，然后将其传输到Csv或xlsx。我使用了以下方法： import requests response = requests.get("https://www.ams.usda.gov/mnreports/wa_gr101.txt") txt=response.text print(txt) #This is essentially prints the entire txt file onto Jupyter f=open("txt") lines=f.readlin

浏览 0提问于2017-02-03得票数 0

3回答

我可以使用Train和Test数据进行补偿吗？

、、

有趣的是，我在stackoverflow和其他网站上看到了很多关于这个问题的不同答案：在处理我的训练数据集时，我使用决策树模型估算了某个列的缺失值。所以这是我的问题。使用所有可用的数据(训练和测试)来建立一个用于估算(而不是预测)的模型是否公平，或者当我这样做时，我可以只接触训练集吗？此外，一旦我开始在我的测试集上工作，我必须只使用我的测试集数据，使用在我的训练集中建立的相同的推算模型，或者我可以使用所有可用的数据来重新训练我的推算模型？我认为，只要我没有接触我的预测模型训练的测试集，使用其余的数据来做一些事情，比如估算，就可以了。但这可能会违反一条基本规则。有什么想法？

浏览 0提问于2017-10-15得票数 7

2回答

如何让cython和gensim与pyspark协同工作

、、、、

我正在运行一台安装了gcc的Lubuntu16.04机器。我不会让gensim与cython一起工作，因为当我训练一个doc2vec model时，它只与一个工人一起训练，速度非常慢。正如我所说的，gcc是从一开始就安装的。然后我可能犯了一个错误，在安装cython之前安装了gensim。我通过pip强制重新安装了gensim，从而纠正了这个问题。没有效果，仍然只有一个工人。这台机器被设置为spark主机，我通过pyspark与spark连接。它的工作原理是这样的，pyspark使用jupyter，jupyter使用Python3.5。通过这种方式，我可以获得到集群的jupyter接口。现

浏览 7提问于2017-02-04得票数 0

回答已采纳

3回答

如何在vscode中获取jupyter笔记本主题

、、

我是一名数据科学家，经常使用jupyter笔记本电脑，也已经开始做很多开发工作，并使用Vscode进行开发。那么如何在vscode中获得Jupyter notebook主题呢？我知道如何通过安装扩展在vscode中打开Jupyter notebook，但我想知道如何获得vs代码的Jupyter notebook主题。因此，在不训练眼睛的情况下在两种ide之间切换变得更容易。

浏览 2提问于2020-07-24得票数 3

1回答

在pytorch中训练大数据失败

、、、、

我尝试在pytorch中构建两个完全连接的层，以便在多个目标[y1,y2,y3,y4,y5]中嵌入像[x1,x2,...,xn]这样的特性。我把我的代码贴在下面： class FullConnect(nn.Module): def __init__(self): super(FullConnect, self).__init__() self.fc = nn.Sequential( nn.Linear(195, 100), nn.Linear(100, 5) ) de

浏览 0提问于2018-04-12得票数 1

1回答

时间序列异常检测的训练/验证/测试分割

、、、

我试着做一个多变量时间序列异常检测。我有由“正常”数据组成的培训数据。我对这些数据进行训练，并在包含正常+异常数据的测试集上检测异常。我的理解是，根据测试集的结果调整模型的超参数是错误的。训练/验证/测试集看起来会是什么样子来训练和评估一个时间序列异常检测器？

浏览 3提问于2021-10-01得票数 0

3回答

重新连接远程木星笔记本并获得电流单元输出

、、、、

我目前正在远程服务器上训练一个神经网络，使用jupyter笔记本。我将其设置如下： tmux jupyter-笔记本-无浏览器-端口=5000 用浏览器连接到jupyter笔记本，并执行训练的单元格(当我观看前10分钟时输出很好) 分离tmux (ctrl-b，d)并关闭浏览器选项卡。现在，当我在浏览器中重新连接到jupyter笔记本时，我没有看到训练单元的当前输出，只有我在观看前10分钟训练时看到的输出。我试图找到一个解决这个问题的方法，我想，对于这个特定的问题，有一些git问题，但是它们都是老的，我不知道这个问题是否解决了。编辑//以使我的意图更加明确，因为我

浏览 7提问于2017-12-25得票数 49

1回答

是否存在内部发生的培训/验证分割，还是只有一个培训集和测试集？

、、、、

因此，最近我一直在学习中的教程，并提出了以下问题:内部是否存在培训/验证分割？问题是，在本教程中，主数据集被拼接到培训和测试中。在这里，训练集用于训练和评估()函数中的测试。据我所知，在处理神经网络时，通常将数据分成3组:训练、验证和测试。然而，在本教程中，它只分为培训和测试。据我所知，通常对模型进行训练，然后进行评估，然后根据评估步骤中学到的内容更新权重。然而，我似乎找不到评估功能和培训之间的任何联系。因此，在此示例中，使用相同的数据集对模型进行评估和测试。这里有我可能遗漏的东西吗？在培训期间是否存在训练数据集的内部分裂(分为训练和验证)，而函数估价()仅仅用于测试模型的性能？ for

浏览 0提问于2020-10-05得票数 0

回答已采纳

3回答

如何利用LSTM对数据进行列车/试验的正确预测？

、

我在这里看到一个悖论。如果我们使用训练/测试分割并评估我们的测试数据，我们可能会得到一个很好的分数，但是任何进一步的预测都是不可信的，因为模型没有训练测试数据并将它的序列包含在内存中。另一方面，我们可以将列车和测试序列上的数据训练为列车数据，但由于没有测试参考，因此无法评估我们的预测。如何正确预测LSTM模型？

浏览 0提问于2018-05-05得票数 1

1回答

Python:根据特定列划分数据集

、、、

目前，我正在尝试构建一个分类模型，为此我将使用数据集进行培训和测试。它是从TIMIT数据库中提取出来的，包含五种不同音素类别的数字化频率。频率在256个标有"x.1“- "x.256”的栏下，而音素类本身被标记为"g“。此外，还有一个“发言者”栏，列有不同的发言者。我的问题是，考虑到演讲者列，是否有可能将这个数据集分成50:50的培训和测试数据？事实上，我想把数据除以，使任何发言者都不在这两组中，这样我就不会用包含已经在培训数据中的相同发言者的测试数据来验证经过训练的模型。我的方法是使用NumPy从原始数据集中提取所有发言者，并使用train_test_split的

浏览 2提问于2018-12-05得票数 1

回答已采纳

2回答

我们是否需要将数据集划分为测试和培训？

、、

我提前为这么愚蠢的问题道歉！我认为我们需要将数据集划分为svm中的训练和测试，然后使用训练集来找到模型。然后用测试集检验该模型的准确性。在libsvm数据集"“中，有些数据集有训练和测试，而其他数据集则没有训练和测试，因此根据libsvm网站的libsvm指南，相关代码是不同的。例如，在svmguide2数据集中没有指定的测试集。那么，我们如何检验模型的准确性。

浏览 2提问于2013-10-14得票数 0

回答已采纳

1回答

在NLP词汇表中包含验证数据有效吗？

、、、

目前，我正在遵循最佳实践，并从培训数据中创建一个带有词汇表的“单词袋”向量。我的交叉验证(和测试)数据集使用该模型转换，使用训练集创建的相同词汇表。它们不提供任何词汇表，也不影响文档频率(用于“术语频率逆文档频率”计算)。然而，这在一些方面是限制性的。首先，计算单词袋模型是昂贵的，因此这就禁止我进行k-折叠交叉验证(因为它需要不断地重新计算单词包)。我的数据集大约有1,000万字，我正在计算一袋单词和一袋双克，每次大约需要5分钟。这也意味着我目前有交叉验证和测试集的数据，这是我不能用于培训的数据。如果我把训练集和交叉验证集上的单词放在一起，我的结果会有很大的偏差吗？换句话说，如果我在验证

浏览 0提问于2018-06-08得票数 6

回答已采纳

1回答

毫升调优-火花交叉验证

、、

我正在查看在中找到的交叉验证代码示例上面写着： CrossValidator首先将数据集分割成一组折叠，这些褶皱用作单独的训练和测试数据集。例如，使用k=3折叠，CrossValidator将生成3个(训练，测试)数据集对，每个使用2/3的数据进行培训，1/3用于测试。因此，我不明白为什么代码中的数据在培训和测试中是分开的： // Run cross-validation, and choose the best set of parameters. val cvModel = cv.fit(training) // Prepare test documents, which a

浏览 4提问于2021-11-10得票数 0

回答已采纳