使用pandas不显示结果来训练先验数据集

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

但是结果没有出来，也没有显示任何错误。

浏览 15提问于2019-12-31得票数 1

1回答

如何根据几个模板对句子进行分类？

、、、

对于特征提取部分，我尝试了人们通常使用的大多数特征，如n-gram，向量表示，弓等。在这种情况下，当每个类只有几个模板时，最好的算法是什么？感谢Amir :)

浏览 0提问于2016-12-19得票数 0

2回答

我有一个有标签的训练数据集，其中每个观察都有一个句子，无论是英语还是法语，作为它的预测，它的标签(目标值)是英语还是法语。测试集再次包括一些句子，无论是英语还是法语，但没有标签。我的一位朋友建议，我们应该使用Bayes定理来建模这个问题，因为我们有一些先验值(在训练集中有标记的观察)。我同意这也是可行的，但我不能真正理解他的论点：“我们应该用Bayes定理来建模这个问题，因为我们有一些先验值”。这是因为在我看来，每一

浏览 0提问于2018-07-13得票数 2

2回答

不超过(/under)采样不平衡的数据集会引起问题吗？

、、

我阅读了很多关于如何专门为不平衡的数据集使用不同的度量(例如，存在两个类，但80%的数据是一个类)，以及如何处理不平衡数据集的问题。一个技巧是过采样，因此获取更多(甚至重复一些)属于未充分表示的类的数据。我尝试过这一点，并取得了更好的结果(在我的模型能够很容易地预测每件事情的单个类，达到80%的准确性lol之前)。然而，我在想，这个模型与现实生活中的数据相吻合吗？数据科学/机器学习的“规律”之一是，您的培训

浏览 0提问于2021-04-29得票数 5

回答已采纳

2回答

不平衡数据集的定义是什么？

、

我有数千个数据源，从类似类型的硬件中生成数据。然而，不同的来源在数据集中产生了不同的动态！不同数据源上的类数不同，因此需要建立不同的模型。这意味着，在最后，我有许多不同的模型要评估。由于这是一个多类分类问题，所以使用了混淆矩阵和多条ROC曲线。现在，我正试图在更多的细节中，看看在最糟糕的模型中，是什么导致了糟糕的表现。通常的

浏览 0提问于2019-12-09得票数 3

1回答

多层感知器代码解释

、、、

解决方案：traincol1 = linspace(0.1, 15, 40)';traincol2 = sin(traincol1traincol1 - eps;save('snn_a.txt','train');生成测试集testcol1 - ep

浏览 6提问于2016-12-14得票数 0

回答已采纳

1回答

使用sk-learn进行分类:在预测时处理丢失的分类特征

、、

我的项目我训练了一个BaggingClassifier。由于使用的数据包含分类特征，因此我使用pandas框架(Get_dummies)对其进行编码。在此之后，我训练分类器。预测数据集内的给定特征:6 由于编码，在这种情况下，训练数据集扩展到12个特征。我用于预测的编码数据只有6个特征，因为它只有一行数据，在编码过程

浏览 6提问于2015-05-06得票数 3

1回答

Apache open NLP POS标记错误

、、、

我使用过Stanford NLP，但由于他们更严格的许可条款(虽然它被声明为GPL，但它只能用于非营利性项目)，我正在评估Apache Open NLP。

浏览 6提问于2016-11-06得票数 1

2回答

Weka中的训练集精度

我在Weka中运行一些简单的分类器来测试水域，但我找不到这段特定的输出数据。当使用像% split这样的东西时，我如何获得训练集的准确性，而不仅仅是测试集的准确性？

浏览 1提问于2013-02-06得票数 0

回答已采纳

1回答

机器学习中数据集的标注

、、

我观察到的例子是简要概述了.For训练系统，给出了特征向量作为输入。在有监督学习的情况下，数据集被标记。我对贴标签感到困惑。例如，如果我必须区分两种类型的图片，我将提供一个特征向量，并在输出端测试，我将提供1类型A和2类型B，但如果我想从图像数据集中提取感兴趣的区域。我将如何标记我的数据来提取ROI使用支持向量机。

浏览 1提问于2016-02-14得票数 2

2回答

Scikit-学习数据索引和引用

、

我使用GridsearchCV训练了多个不同的模型。在训练过程中，数据排序如下： [feature 1, feature 2, feature 3, feature 4] 我想使用保存的(用joblib保存的)模型来预测新数据。新数据/不可见数据的顺序如下： [feature 1, feature 2, feature 4, feature 3] 训练数据和新数据之间的特

浏览 16提问于2019-02-26得票数 0

2回答

如何平衡某个类的样本数量非常多的训练数据集？

、、、、

我一直在使用烂番茄电影评论数据集进行情绪分析预测。数据集具有5个类别{0,1,2,3,4}，其中0是非常负的，而4是非常正的。数据集是高度不平衡的，'0': 7072 (4.5%), '1': 27273 (17.4%), '2': 79583 (50.9%), '3': 32927(21%), '4': 9206 (5

浏览 5提问于2014-11-19得票数 1

4回答

在训练集上评估一个模型是一个好的实践吗？

、、、、

对训练集模型进行评价(即训练训练模型，在同一训练集上评估回归误差/精度)，并将评价结果与模型回归误差/交叉验证(我们在同一训练集上进行交叉验证)和测试集的精度进行比较，以检查过拟合/不拟合是否是一种很好的做法吗据我所知，我们不应该对训练集的模型进行评估。然而，我看到一些讲座似乎促进了对训练错误的评估。

浏览 0提问于2020-08-20得票数 1

2回答

训练集和测试集大小

、、

如何正确处理培训/测试集的生成？我正在做几个实验来测试我的神经网络模型的泛化能力，所以在所有实验中，我的测试集都不同于我的训练集(例如，在一个实验中，训练集和测试集之间的句子结构是相同的，而在训练集中我使用一组单词，在测试集中使用另一组单词因此，我的问题是:为了能够比较实验之间的准确性，我是否必须在实验之间保持相似的训练集/测试集</e

浏览 0提问于2021-07-08得票数 1

1回答

学习、验证和测试分类器

、

我有210个训练数据，我使用朴素贝叶斯作为分类器。我正在实现使用PHP和MySQL作为我的数据库来训练数据。我所做的是按顺序进行的：我将训练数据插入到数据库中，这样我的分类器就可以根据训练数据进

浏览 9提问于2013-07-05得票数 0

回答已采纳

1回答

Pandas dataframe -将N行从一个数据帧移动到另一个数据帧

、、

我有一个用于机器学习的训练集和测试集，但是训练集包含的数据行太多，而测试集包含的数据太少。我计算出我需要将245行从训练集中移动到测试集中，以产生更好的拆分。我该怎么做呢？首先，我使用下面的代码随机化训练集的行 train_df = train_df.sample(n = len(train_df)).reset_index(drop=True) 然后，我想获取最后245行，并将它

浏览 13提问于2020-12-24得票数 0

回答已采纳

1回答

如何在tensorflow中验证神经网络？

、、、、

目前，我的神经网络只使用训练数据集进行训练，但我也想验证，但我不知道如何准确地做到这一点。我应该在每个时期之后对整个验证集运行测试吗？如果是，那么从测试中，我会得到一个准确性，但我也不知道该怎么做？在这种情况下，验证集的结果对它有何影响？project/model/model.ckpt") return

浏览 0提问于2018-03-16得票数 0

1回答

测试网络而不设置迭代次数

、

我有一个预先训练过的网络，我想用它来测试我的数据。我使用.prototxt定义了网络体系结构，我的数据层是一个自定义的Python层，它接收带有数据路径及其标签的.txt文件，对其进行预处理，然后提供给网络。在搜索用于测试网络的命令时，如果我不设置-iterations，它将使用</e

浏览 2提问于2016-09-21得票数 0

回答已采纳

1回答

如何使用只有一个标签的数据来训练模型

、、

我正试图建立一个模型来预测一场网球比赛的结果(胜负)，作为一项练习。我正在使用Python，Pandas和scikit-学习。尝试使用单值训练器(例如1标签支持向量机)来<

浏览 0提问于2019-06-07得票数 0

1回答

Tensorflow:创建用于机器翻译的自定义文本数据集

、、、

我希望使用自己的数据为训练模型。在TFDS中已经有一组数据集可用(Tensorflow数据集)，还可以选择到TFDS。但是，如果我不必等待这些添加请求和内容，并直接训练我的数据，那会怎么样呢？在示例colab笔记本中，他们使用以下内容来创建训练和验证数据： examples, metadata = tfds.load('ted_hrlr_translat

浏览 16提问于2019-07-19得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云