使用scikit绘制混淆矩阵-在没有分类器的情况下学习_有没有一种方法可以在Python中为具有多个分类的随机森林绘制部分依赖图(使用scikit-learn)？_使用ImageDataGenerator批量生成的二进制分类器模型在没有ImageDataGenerator的情况下不会产生相同的结果 - 腾讯云开发者社区

、、

我有一个用sklearn.metrics.confusion_matrix创建的混淆矩阵。现在，我想用sklearn.metrics.plot_confusion_matrix绘制它，但是第一个参数是在中指定的训练有素的分类器。问题是我没有分类器；结果是通过手动计算获得的。是否仍然可以通过scikit-learn在一行中绘制混淆矩阵，或者我是否必须使用matplotlib自己编码？

浏览 10提问于2019-12-04得票数 17

回答已采纳

1回答

如何绘制K-均值算法的混淆/相似矩阵

、、、

本文采用K均值算法对部分文本文档进行分类，并对聚类结果进行学习和显示。我想在一个相似矩阵中显示我的集群的相似性。我在scikit学习库中没有看到任何允许这样做的工具。 # headlines type: <class 'numpy.ndarray'> tf-idf vectors pca = PCA(n_components=2).fit(headlines) data2D = pca.transform(to_headlines) pl.scatter(data2D[:, 0], data2D[:, 1]) km = KMeans(n_clusters=4, in

浏览 0提问于2017-07-15得票数 5

回答已采纳

1回答

如何绘制多类分类器的准确率和召回率？

、、、、

我正在使用scikit learn，我想要绘制精确度和召回率曲线。我使用的分类器是RandomForestClassifier。scikit学习文档中的所有资源都使用二进制分类。另外，我可以绘制多类的ROC曲线吗？此外，我只找到了多标签的支持向量机，它有一个RandomForest没有的decision_function

浏览 5提问于2019-05-11得票数 20

回答已采纳

2回答

在scikit-learn中使用交叉验证时绘制精度-召回曲线

、

我正在使用交叉验证来评估具有scikit-learn的分类器的性能，并且我想要绘制精度-召回率曲线。我在scikit-learn`s的网站上找到了来绘制PR曲线，但它没有使用交叉验证进行评估。在使用交叉验证时，如何在scikit学习中绘制精确召回曲线？我执行了以下操作，但我不确定这是否是正确的方法(psudo代码)： for each k-fold: precision, recall, _ = precision_recall_curve(y_test, probs) mean_precision += precision mean_recall += recall

浏览 2提问于2014-10-27得票数 7

2回答

有没有可能画出一个有90个类别的混淆矩阵？

、

我希望为我的分类模型绘制混淆矩阵。它有大约20000个文档，需要分类到90个类。我收到的混淆矩阵是巨大的。我希望绘制这个图，但我似乎只发现到处都是二分类图。有没有可能画出这个多类混淆矩阵？我尝试了一些方法，但没有显示清晰的方法。这是我的混淆矩阵的样子： [[3919 344 0 ..., 0 0 1] [ 267 2739 0 ..., 0 0 0] [ 1 6 17 ..., 0 0 0] ..., [ 4 1 0 ..., 6 0 0] [ 0 2

浏览 3提问于2016-02-08得票数 2

1回答

SGD分类器精度-召回曲线

、、、、

我正在研究一个二进制分类问题，我有一个sgd分类器，如下所示： sgd = SGDClassifier( max_iter = 1000, tol = 1e-3, validation_fraction = 0.2, class_weight = {0:0.5, 1:8.99} ) 我把它安装在我的训练集上，并绘制了精确召回曲线： from sklearn.metrics import plot_precision_recall_curve disp = plot_precision_recall_curv

浏览 1提问于2021-05-09得票数 1

回答已采纳

3回答

Python sklearn在训练期间显示损失值

、、

我想在训练期间检查我的损失值，这样我就可以在每次迭代中观察到损失。到目前为止，我还没有找到一种简单的方法让scikit学习给我提供损失价值的历史记录，我也没有在scikit中找到一个功能来为我绘制损失情况。如果没有办法绘制这个图，如果我可以简单地在classifier.fit的末尾获取最终的损失值，那就太好了。注意:我知道一些解决方案是封闭的。我使用了几个没有分析解决方案的分类器，比如logistic回归和支持向量机。有人有什么建议吗？

浏览 1提问于2017-06-09得票数 13

回答已采纳

4回答

如何才能学习随机森林子样本大小可以等于原始训练数据的大小？

、、、

在SciKit学习随机森林分类器的文献中，指出：子样本大小总是与原始输入样本大小相同，但是如果是bootstrap=True (默认)，则用替换的方式绘制样本。我不明白的是，如果样本的大小总是和输入的样本大小相同，我们怎么能谈论随机选择。这里没有选择，因为我们在每次培训中都使用所有的样本(当然也是相同的)。我是不是漏掉了什么？

浏览 4提问于2016-03-06得票数 6

回答已采纳

1回答

什么是输入格式的sk-学习分类器？

、、、

我对scikit和numpy/熊猫都很陌生，但我对Python和数据处理都很熟悉。我不知道输入到sk-学习分类器应该是什么格式。我尝试过使用调试器来检查sk学习教程中使用的示例矩阵，但是它们有大量的成员，我不知道哪些是数据，哪些是派生的。是否有一个参考规范来解释数组必须是什么样子，以及如何构造数组才能成为sk学习分类器的有效输入？

浏览 0提问于2018-03-30得票数 0

回答已采纳

2回答

Scikit learn分类器有分类功能吗？

、、、

我一直在使用NTLK分类器来训练数据集和对单个记录进行分类。为了训练记录，我使用这个函数， nltk.NaiveBayesClassifier.train(train_set) 为了对单个记录进行分类， nltk.NaiveBayesClassifier.classify(record) 其中，"record“是变量名。在Scikit分类器中，对于训练数据集，使用的函数是， from sklearn.ensemble import RandomForestClassifier classifier = RandomForestClassifier() classifier.fit(X

浏览 0提问于2018-03-15得票数 1

1回答

如何解释Scikit-学习混淆矩阵？

、、

我使用来检查分类器的性能。我正在使用Scikit-学习，我有点困惑。我如何解释 from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) 我如何决定这个预测值是好还是坏。

浏览 0提问于2014-04-25得票数 1

1回答

scikit邻域/半径分类拟合的预计算矩阵

、、、

我与Scikit-学习的最近的邻居/半径分类与一个预先计算的度量。这意味着，我向分类器的拟合方法传递成对距离的n_samples_train x n_samples_train矩阵。现在我想知道为什么要这样做。用knn学习只意味着“存储样本”，但是距离的计算应该只在泛化过程中进行(在这一步骤中，我当然要计算我的训练样本和测试样本之间的距离矩阵，所以是一个大小为n_samples_train x n_samples_test的矩阵)。例如，在支持向量机的情况下，我将一个预先计算的矩阵( Gramian，一个相似矩阵)传递给smv.v.VC-对象的拟合方法。然后进行优化处理，找出支持向量等。在

浏览 1提问于2016-12-06得票数 6

1回答

稀疏矩阵与MultinomialNB一起工作吗？

、、、、

我有一个BoW矢量形状(100000, 56000)，我想使用MultinomialNB从scikit学习一个分类任务。 MultinomialNB是否采用稀疏矩阵来拟合数据？由于内存错误，我似乎无法将其转换为密集矩阵toarray()。如果NB分类器不采用稀疏矩阵，那么在不将数据转换为稠密矩阵的情况下，我可以使用什么替代方法来拟合数据呢？

浏览 1提问于2019-03-10得票数 0

回答已采纳

2回答

如何理解4x4混淆矩阵？

、、

我正在使用scikit学习决策树将一组数据分类为四类中的一种。我是机器学习和编码的新手，我试着去理解混淆矩阵。所以当我使用sci工具包混淆矩阵时，我得到了一个四乘四的矩阵。我知道列是每个类别的预测(例如“预测A，预测B.”)。然而，我对行代表什么感到困惑。另外，某些预测是否有可能不会出现在混淆矩阵上。我发现有些列没有必要的总数。为什么会这样呢？ unique, counts = np.unique(classif_predict, return_counts=True) print('Predicted:',dict(zip(unique, counts))) _uniqu

浏览 4提问于2019-10-27得票数 3

回答已采纳

1回答

从函数调用时显示混淆矩阵

、、、、

我有一个从scikit学习中导入随机森林分类器的函数，我用数据对它进行拟合，最后我想显示准确性、卡帕和混淆矩阵。除打印混淆矩阵外，所有工作。我没有得到任何错误，但混淆矩阵不打印。我试着打电话给print(cm)，它可以工作，但它没有打印通常的熊猫数据格式，这是我正在寻找的。这是密码 def rf_clf(X, y, test_size = 0.3, random_state = 42): """This function splits the data into train and test and fits it in a random forest cl

浏览 1提问于2019-04-09得票数 1

回答已采纳

3回答

如何绘制混淆矩阵？

、、、、

我正在使用scikit-learn将文本文档(22000)分类为100个类。我使用scikit-learn的混淆矩阵方法来计算混淆矩阵。 model1 = LogisticRegression() model1 = model1.fit(matrix, labels) pred = model1.predict(test_matrix) cm=metrics.confusion_matrix(test_labels,pred) print(cm) plt.imshow(cm, cmap='binary') 这是我的混淆矩阵的样子： [[3962 325 0 ...,

浏览 1提问于2016-02-23得票数 129

1回答

如何从OrangeML模型中获取Scikit学习模型输出？

、、

我希望在Orange模型上应用python库(例如，Orange树分类器)，但是这个库只接受scikit学习模型。有没有一种方法可以在Scikit学习树分类器中转换我的橙树分类器，包括我的Orange管道中的Python脚本？我知道橙色ML模型是建立在科学知识学习库上的，所以理论上它们应该是可转换的。提前谢谢！马丁

浏览 4提问于2019-07-12得票数 1

回答已采纳

1回答

什么是“对于某些标签，真阳性和假阳性的总和等于零”。卑劣？

、、

我正在使用scikit学习来执行交叉验证，使用StratifiedKFold来计算f1 score，但它表明我的一些标签具有真阳性和假阳性之和，对于某些标签来说，假阳性等于零。我认为使用StratifiedKFold应该可以防止这种情况发生？为什么我会遇到这个问题？另外，有没有办法从cross_val_score函数中获得混淆矩阵？

浏览 0提问于2014-06-22得票数 0

2回答

什么是分类器使用的科学工具-学习的VotingClassifier？

、、

我看了一下scikit的文档--学习，但我不清楚在VotingClassifier的引擎盖下使用了什么样的分类方法？它是logistic回归，支持向量机，还是一种树方法？我感兴趣的是如何改变遮罩下使用的分类器方法。如果Scikit-learn没有提供这样的选项，那么是否有一个可以很容易地与scikit集成的python包--学习，它将提供这样的功能？编辑：我指的是用于第二个级别模型的分类器方法。我完全知道，第一级分类器可以是任何类型的分类器支持的科学工具包-学习。第二级分类器使用第一级分类器的预测作为输入。所以我的问题是-这个二级分类器使用什么方法？这是logistic回归吗？还是别的

浏览 0提问于2019-01-15得票数 3

回答已采纳

2回答

如何在Python中创建混淆矩阵图像

、、、、

我是Python和机器学习的新手。我的工作是多类分类(3类)。我想将混乱矩阵保存为图像。现在，sklearn.metrics.confusion_matrix()帮助我找到混淆矩阵，如： array([[35, 0, 6], [0, 0, 3], [5, 50, 1]]) 接下来，我想知道如何将这个混淆矩阵转换成图像并保存为png。

浏览 5提问于2020-12-16得票数 2

回答已采纳

2回答

迷你批次-我提供迷你批次的scikit-learn分类器的训练

、、

我有一个非常大的数据集，不能加载到内存中。我想使用这个数据集作为scikit学习分类器的训练集，例如LogisticRegression。有没有可能在我提供小批次的情况下，对一个scikit学习分类器进行一个小批次训练？

浏览 1提问于2017-10-25得票数 8

回答已采纳

1回答

理解Matlab模式识别神经网络图

、、、

我目前正在做一个关于车辆分类的项目，它现在已经差不多完成了，但是我对从我的神经网络得到的图有一些困惑。我使用230个图像[90=Hatchbacks,90=Sedans,50=SUVs]对80个特征点进行分类。因此，我的vInput是[80x230]矩阵，而我的vTarget是[3x230]矩阵。分类器工作得很好，但我不理解这些情节，或者它们是否异常。我的神经网络然后，我在PLOT部分点击了这4幅图，然后按顺序得到了这些。性能图训练状态混淆图接收机工作特性图我知道这些图像，它们是很多图像，但我对它们一无所知。在matlab的文档中，他们只是训练系统并绘制图表

浏览 0提问于2013-11-16得票数 4

回答已采纳

1回答

混淆矩阵与分类图像的不一致性

、、、

由于我的地理信息系统软件的计算能力有限，我试图在R中实现随机森林，以便进行图像分类。我的输入是一个多波段TIFF图像，它被训练成一个ArcGIS文件(目标值0和1)。该代码在技术上可以工作，并产生有效的输出。当我查看混淆矩阵时，我得到以下信息： 0 1 class.error 0 11 3 0.214285714 1 1 13 0.071428571 这对我的数据来说是明智的。然而，当我在GIS软件中绘制出图像分类输出(二值为0和1的二值重分类tiff )时，它以100%的成功率预测了训练数据。换句话说，输出图像没有分类错误。当混淆矩阵

浏览 6提问于2019-10-22得票数 0

回答已采纳

1回答

用于大量分类的分类器和技术

、、、、

我正在设计一个带有5000+分类器的scikit学习分类器，它的训练数据至少有8000万，并且每年可能会增加1亿。我已经尝试了所有的类别，但它生成分类器的顺序为1000的GBs二进制文件。因此，我认为为每个类别设置一个分类器是有帮助的，也将有助于我对每个类别的特性进行微调，从而提高分类的准确性，但这意味着对每个类别都使用5k+分类器。那么，考虑到我将继续获得更多的培训数据以及可能会发现新的类别，那么如何处理这个大数据需求，以及在这种情况下使用哪些增量分类器呢？更新: 特征的数量约为45个，主要是基于文本的，大多数是基于文本的大基数值的分类，也就是说，许多特性可能有大量的可能值，可用RAM为3

浏览 3提问于2015-09-14得票数 3

3回答

你能在scikit learn中修复分类器的假阴性率吗？

、

我在scikit学习中使用了一个，其中包含两个类的不平衡数据集。我更担心的是假阴性而不是假阳性。有没有可能修复假阴性率(比方说，1%)，并让scikit以某种方式优化假阳性率？如果这个分类器不支持它，有没有其他分类器支持它？

浏览 1提问于2015-09-18得票数 14

1回答

从混淆矩阵中提取y_true和y_pred

、、

我有一个通过Scikit-Learn生成的混淆矩阵。我想知道是否有可能对其进行反向工程，并在Python语言中仅给出混淆矩阵的情况下获得y_true和y_pred。如果没有内置任何东西(比如Scikit-Learn)，有人会介意提供代码片段吗？

浏览 91提问于2021-05-09得票数 1

回答已采纳

1回答

Spark多标签分类

、、

我希望用Spark实现，这是一种具有多输出的多标签分类算法，但令我惊讶的是，Spark机器学习库中没有任何模型可以做到这一点。我怎么才能用Spark做到这一点呢？此外，Scikit Learn Logistic Regresssion支持输入/输出中的多标签分类，但不支持用于训练的大量数据。要查看scikit学习中的代码，请单击以下链接：

浏览 35提问于2016-08-26得票数 11

1回答

python tensorflow文本分类中的稀疏矩阵

、、

我一直在尝试使用python中的tensorflow包实现一个文本分类例程。我已经有一个成功的感知器版本在scikit-learn环境中工作，但是scikit-learn没有多层神经网络(除了一些神秘的0.18版本，我似乎在任何地方都找不到/安装它)。我认为最好先在tensorflow中尝试一些更简单的东西，了解这个包是如何工作的，以及它能做什么和不能做什么，所以我选择了最近的邻居。到目前为止一切都很好，只是我找不到一种方法将稀疏版本的词汇表矩阵(文本的词袋向量化)提供给tensorflow中的占位符(在scikit中-学习这完全没有问题)。将词汇表矩阵转换为密集矩阵解决了这个问题，但会严重

浏览 1提问于2016-03-17得票数 3

3回答

XGBoost - n_estimators =1等于单树分类器？

、、

我有一些培训管道，它大量使用XGBoost而不是scikit学习，这仅仅是因为XGBoost干净地处理空值的方式。然而，我的任务是将非技术人员引入机器学习，并认为最好采用单树分类器的概念，并讨论XGBoost 一般如何使用这种数据结构并“将其置于类固醇中”。具体来说，我想要绘制这个单树分类器来显示切点。指定n_estimators=1是，大致相当于使用的DecisionTreeClassifier

浏览 0提问于2018-11-09得票数 11

回答已采纳

3回答

学会使用GPU吗？

、、、、

阅读scikit的实现--在TensorFlow：和scikit中学习--学习：，我正在努力决定使用哪个实现。学习是作为tensorflow码头容器的一部分安装的，所以可以使用这两种实现。使用scikit的理由--学习：与tensorflow实现相比，学习包含更少的样板。使用tensorflow的原因：如果运行在Nvidia GPU上，算法将被并行运行，我不确定scikit-learn是否会利用所有可用的GPU？读取 TensorFlow更低层次；基本上，乐高积木可以帮助您实现机器学习算法，而scikit- learning则为您提供现成的算法，例如支持向量机、随

浏览 10提问于2017-01-10得票数 108

回答已采纳

1回答

导出Scikit学习随机森林以便在Hadoop平台上使用

、、、、

我已经开发了一个垃圾邮件分类器，使用熊猫和scikit来学习，它已经准备好集成到基于hadoop的系统中。为此，我需要将分类器导出为比泡菜更常见的格式。预测模型标记语言(PMML)是我首选的导出格式。它非常好地发挥级联，我们已经使用了。然而，令人惊讶的是，我没有找到任何将scikit学习模型导出到PMML中的python库。有人对这个用例有过经验吗？除了PMML之外，有没有其他方法可以在scikit-learn和hadoop之间提供互操作性呢？那么一个可靠的PMML导出库呢？

浏览 2提问于2014-06-13得票数 6

回答已采纳

1回答

Weka分类

、、

我试图在一个有32个属性的数据集上对分类机器学习算法进行数据建模，最后一列是Target class.I。我将属性数量从32个改进为6个，我觉得这对我的分类模型更有用。我尝试执行J48和一些增量分类算法。我期望的输出结构由混淆矩阵、正确和错误分类的实例、kappa值组成。但是我的结果没有给出任何关于正确和错误分类的instances.Also的信息，它没有预测混淆矩阵，我收到的Kappa value.All是这样的： ===摘要=== 相关系数0.9482 平均绝对误差0.2106 均方根误差0.5673 相对绝对误差13.4077 % 根相对平方误差31.9157 % 实例总数1461

浏览 3提问于2015-07-30得票数 1

2回答

我对ML很陌生，我不知道如何解决这个问题，有人能帮我吗？

、、

下载dataset，其中前四列是特性，最后一列对应于类别(3个标签)。执行下列任务。 (80:20)Construct -朴素贝叶斯分类器将数据集分解为训练集和测试集，并在训练集上进行训练。假设高斯分布在测试集a上使用以下度量来计算probabilities.Evaluate的性能。总体和按类分类精度c. ROC曲线，AUC使用任何库(例如scikit学习)并在2和4中对分类器的性能进行1到3的比较和评论。计算贝叶斯风险。考虑到，λ=2 1 6 4 2 4 6 3 1，其中λ是一个丢失函数，行和列分别对应于类(ci)和动作(aj)，例如λ(/)= 4

浏览 8提问于2022-03-06得票数 -2

1回答

混淆矩阵-一类零值类

、、

我正在将随机森林分类器应用于具有645条记录和12个特性的数据集(由KBest方法选择)。此数据集包含一个具有4个可能值的类(1..4)。当我绘制混淆矩阵时，我得到了这个 📷 我的观点是关于第二节课，正如你所提到的，学习的模型对这门课不起作用。最初，大小可能是一个问题，但第2类的大小与第2类相似--我检查了每个特性的平均值，但在第2类和其他特性之间没有发现任何异常。有人知道为什么这个模型听起来太糟糕了吗？

浏览 0提问于2021-12-28得票数 1

2回答

使用TF-国防军与其他功能在科学工具包-学习

、、、

将文本分析与其他功能相结合的最佳/正确方法是什么？例如，我有一个包含一些文本和其他特性/类别的数据集。scikit学习的TF-国防军矢量器将文本数据转换为稀疏矩阵。例如，我可以用朴素贝叶斯分类器直接使用这些稀疏矩阵。但是，还有什么方法可以考虑到其他功能呢？我是否应该消除文本的tf-国防军表示，并将功能和文本合并成一个DataFrame？或者，我是否可以将稀疏矩阵保留为单独的列？正确的方法是什么？

浏览 0提问于2017-09-04得票数 14

回答已采纳

7回答

可以计算用于多标签分类的混淆矩阵的Python库。

、、

我正在寻找一个可以计算多标号分类的混淆矩阵的Python库。 FYI：学习不会支持混淆矩阵的多个标签) 多类和多标签问题的区别是什么？

浏览 0提问于2015-12-11得票数 9

1回答

分类决策边界

、、、、

我用Python训练了我的机器学习分类模型。对于结果分析，当我试图在google中绘制决策面或边界时，可以使用sklearn(scikit-learn)检查模块。 from sklearn.inspection import DecisionBoundaryDisplay 我得到了以下错误。我升级了滑雪板 pip install -U scikit-learn 升级后的sklearn版本为1.0.2 为什么我会遇到这个错误，这个问题的解决方案是什么？

浏览 15提问于2022-11-18得票数 1

2回答

用于大量分类的分类器和技术

、、、、

我正在为一项包含5000+类别和培训数据的序列标记任务设计一个scikit学习分类器，该分类器的数据至少为8000万，并且可能每年增加1亿。我已经尝试了所有的类别，但它生成分类器的顺序为1000的GBs二进制文件。因此，我认为为每个类别设置一个分类器是有帮助的，也将有助于我对每个类别的特性进行微调，从而提高分类的准确性，但这意味着对每个类别都使用5k+分类器。那么，考虑到我将继续获得更多的培训数据以及可能会发现新的类别，那么如何处理这个大数据需求，以及在这种情况下使用哪些增量分类器呢？特征数与100+有关，由于序列标记任务，训练样本的连续序列具有相同的特征值。特征值大多是基于文本的，而大多数

浏览 0提问于2015-09-26得票数 7

1回答

如何绘制多类混淆矩阵？

我正在尝试为我的主题分类绘制一个混淆矩阵。然而，当我绘制它的时候，我看不清任何东西。我得到了草草的X和Y轴，没有正确绘制任何东西。我如何才能以更好的方式绘制它，以查看我的文档是如何分类的？我有22465个文档和88个主题。下面是我的代码： from pandas_confusion import ConfusionMatrix import matplotlib.pyplot as plt model = LogisticRegression() model = model.fit(matrix_tmp, label_tmp) pred = model.predict(matrix_tmp_

浏览 1提问于2016-02-08得票数 1

3回答

Scikit学习丢失的数据-分类值

、、、、

我有一个包含分类特征的数据集，它有4个标签和4个特征。(这是一个元分类器，因此基分类器的输出作为这个分类器的输入) Label Feat1 Feat2 Feat3 Feat4 1 1 1 2 2 2 3 1 2 2 3 4 3 3 1 4 4 1 2 4 我正在使用scikit学习，并且正在考虑使用朴素的贝叶斯或决策树。分类器需要能够处理缺少的特性，我在scikit learn的页面上看到，决策树不支持缺失的值。我正在寻找的是关

浏览 0提问于2016-07-15得票数 4

回答已采纳

1回答

用离散预测实现朴素贝叶斯分类器的ROC曲线

、、

我需要实现朴素贝叶斯分类器并绘制ROC曲线 1) only 2 classes(Trousers and pullovers) out of 10 classes of the [FMNIST][1] dataset and then 2) second for all the ten classes without using scikit library and just basic matplotlib, pandas libraries from scratch. 我已经成功地实现了这两种情况下的朴素贝叶斯分类器，但我无法理解如何实现ROC曲线，因为它需要设置阈值。朴素贝叶斯分

浏览 1提问于2019-01-19得票数 0

回答已采纳

3回答

科学知识分类停止词

、、

下面是一个示例，其中有一步一步的过程来使系统学习和分类输入数据。它对给定的5个数据集域进行了正确的分类。此外，它还分类停止词。 e.g 输入：docs_new = ['God is love', 'what is where'] 产出： 'God is love' => soc.religion.christian 'what is where' => soc.religion.christian 在这里，what is where不应该被分类，因为它只包含停止词。在这个场景中，scikit是如何学习功能的？

浏览 2提问于2014-09-03得票数 0

回答已采纳

1回答

随机投影在大型稀疏矩阵中的应用

、

我正在进行二进制文本分类，我有一个大的稀疏矩阵(n_samples: 974, n_features: 19329)，这是由于使用了一个单词表示包。我阅读了将随机投影应用于scikit--学习，并且由于有不同类型的随机投影，我不确定哪一种更适合我的数据--例如:由于我有稀疏矩阵，所以可以应用稀疏随机投影，或者它需要一个密集矩阵吗？

浏览 1提问于2016-03-17得票数 0

回答已采纳

3回答

如何利用predict_generator对Keras中的流测试数据进行预测？

、、、、

在Keras博客--从头开始训练凸网中，代码只显示在培训和验证数据上运行的网络。测试数据呢？验证数据与测试数据相同(我认为不是)。如果在类似的行中有一个单独的测试文件夹，比如火车和验证文件夹，我们如何获得测试数据的混淆矩阵。我知道我们必须使用scikit学习或其他包来完成这个任务，但是我如何获得类似于测试数据类概率的信息呢？我希望用这个作为混淆矩阵。

浏览 0提问于2016-09-07得票数 21

回答已采纳

1回答

Scikit是如何学习KNN处理分类输入变量的？

、、、、

在一些文章中，有人说knn对一个热编码的分类变量使用hamming距离。scikit学习knn的实现是否遵循同样的方式。在使用knn时，还有其他方法来处理分类输入变量吗？

浏览 0提问于2022-01-12得票数 0

1回答

科学学习中多层Perceprton分类器神经元的输出

、、

我目前正在工作的 of neural_network包的学习。我训练了分类器，它预测/运行得很好。现在，我需要每个层中神经元(节点)的输出值，当它在训练后预测特定输入的类时，用于可视化目的。我读了api，有一个属性- coefs_，它返回网络的权重矩阵，但是找不到任何方法或属性来返回神经元的输出。因此，在文档中没有提到，我认为不可能直接获得它。是否有任何方法/调整可获得这些输出的神经元在每一层或任何直接的方法可视化的MLPClassifier。注意- MLPClassifier目前还不能在scikit的稳定版本中使用，只是0.18dev版本而已。我正在使用Python2.7和scik

浏览 2提问于2016-01-27得票数 1

3回答

如何在实践中使用TfidfVectorizer +元数据进行分类？

、、、

我正在尝试将一些文档分为两类，其中我使用TfidfVectorizer作为一种特征提取技术。输入数据由包含大约十几个浮动数据、标签和文档正文文本块的字段的数据行组成。按照使用主体的顺序，我应用了TfidfVectorizer并得到了一个稀疏矩阵(我可以通过toarray()转换成数组来检查这个矩阵)。这个矩阵通常是非常大的，成千上万的维--让我们称它为F，它的大小是1000x15000。为了在Scikit中使用分类器，我给出了一个输入矩阵X，即(行数*特征数)。如果我不使用这个身体，我可能有一个大小为1000 x 15的X。这是一个问题，假设我将这个F水平叠加到X，所以X将变成1000x

浏览 2提问于2013-10-19得票数 6

2回答

评估多类分类器性能的好指标是什么？

、、

我正在尝试在大约1000个对象中运行分类器，每个对象都有6个浮点变量。我已经使用scikit-learn的交叉验证功能为几个不同的模型生成了一个预测值数组。然后，我使用sklearn.metrics来计算我的分类器和混乱表的准确性。大多数分类器的准确率都在20-30%左右。下面是SVC分类器的混乱表(准确率为25.4%)。由于我是机器学习的新手，我不确定如何解释结果，以及是否有其他好的度量来评估问题。直观地说，即使有25%的准确率，考虑到分类器获得了25%的预测正确，我相信它至少在某种程度上是有效的，对吧？我如何用统计参数来表达这一点呢？

浏览 1提问于2016-12-05得票数 1

1回答

具有多项朴素贝叶斯的大量类(scikit-learn)

、、

每当我开始拥有更多的类(1000或更多)时，MultinominalNB就会变得非常慢，占用千兆字节的内存。支持.partial_fit() (SGDClassifier，Perceptron)的所有scikit学习分类算法也是如此。当使用卷积神经网络时，10000类是没有问题的。但是当我想用相同的数据训练MultinominalNB时，我的12 to内存是不够的，而且非常慢。根据我对朴素贝叶斯的理解，即使有很多类，它也应该快得多。这可能是scikit学习实现(可能是.partial_fit()函数的问题)吗？如何在10000+类(批处理)上培训MultinominalNB/ can分类器/P

浏览 6提问于2016-01-07得票数 1

回答已采纳

1回答

有没有一种方法可以在Python中为具有多个分类的随机森林绘制部分依赖图(使用scikit-learn)？

、、、、

有没有一种方法可以在Python中为具有多个分类的随机森林绘制部分依赖图(使用scikit-learn)？我对此提出了一个单独的问题，因为我不确定scikit-learn中是否存在这样的函数。我已经在R中看到了一些例子。如果这个功能不存在，我会在scikit-learn github中提出请求，但在提出请求之前，我只想与社区再次确认一下。如果你知道除了scikit learn之外的任何其他Python包可以指导这个情节，请告诉我。谢谢。

浏览 87提问于2021-09-27得票数 0