我有一个从scikit学习中导入随机森林分类器的函数,我用数据对它进行拟合,最后我想显示准确性、卡帕和混淆矩阵。除打印混淆矩阵外,所有工作。我没有得到任何错误,但混淆矩阵不打印。
我试着打电话给print(cm),它可以工作,但它没有打印通常的熊猫数据格式,这是我正在寻找的。
这是密码
def rf_clf(X, y, test_size = 0.3, random_state = 42):
"""This function splits the data into train and test and fits it in a random forest cl
我正在研究一个多类文本分类问题。我已经为同样的建立了梯度提升模型。
关于数据集的:
数据集有两列:"Test_name“和"Description”。
Test_Name列中有6个标签," description“列中有相应的描述。
My the the problem
数据准备
创建用于描述的单词向量。
使用单词向量构建一个语料库。
预处理任务,如删除数字,空格,停止词和转换为小写.
构建文档术语矩阵(dtm)。
从上面的dtm中删除稀疏的单词。
上述步骤导致一个计数频率矩阵,显示其编码应答列中每个字的频
我用角纸来解决一个多类的问题。我的数据非常不平衡,所以我试图创建类似于混淆矩阵的东西。我的数据集非常大,并保存为HDF5,因此我使用HDF5Matrix来获取X和Y,从而使scikit--学习混淆矩阵无关紧要(据我所知)。我已经看到,或是可能的,不过,更优雅的解决方案是创建一个多维度量,它累加(可预测的、真实的)标签对(有点像混淆矩阵)。我使用了以下回调来尝试查看每批/每一个时代发生了什么:
from keras.callbacks import LambdaCallback
batch_print_callback = LambdaCallback(on_batch_end=lambda b
使用h2o.ai训练二进制分类器,并想知道哪个标签被认为是“正”类。这是不同的,因为如果标签上写着‘给予饼干’和‘不要给饼干’,并试图优化以最大限度地回忆,取决于哪个标签是‘正’类,我们将发出更多(‘给予饼干’是积极类)或更少(‘不要给饼干’作为积极类)饼干。
SO ()上的另一篇文章似乎暗示,默认情况下,级别值是由alpha顺序分配的('a‘是最低的级别,'z’是最高的),并试图在这里确认这是它自己的显式问题。
另外,是否有一种方法可以查看哪个类当前是模型的“正”类(即。使用some_h20_model.confusion_matrix(...)输出命令时基于混淆矩阵标签的排
我使用的是pROC (在R中)和函数multiclass.roc,如线程中所指出的
但是,当我应用于我的数据时,有一个错误:
谓词必须是数字或有序的。
显然,我的数据标签是无序的,在这种情况下,我如何计算AUC?
P/S:我的思想是,我有一个混淆矩阵作为多类分类器的结果。如何计算R中这个混淆矩阵的AUC?
Update1:
假设我有4类A,B,C,D没有顺序(即,并不意味着A>B或B> A)
正确的值:
A A A B B C D A B C D A B C ...
预测值:
A B A B B B C D ...
如何计算这些数据的AUC?
更新2
生成示例数据的代码:
我通过一个算法得到了一个假帐户列表,我想确定这个结果的精度/准确性,并将其与标签数据集进行比较。这些列表只包含假帐户,而不仅仅是由我的算法识别的帐户,因此列表的长度是不同的。预测列表(via算法)如下:
['A','B','C','G','L'] # these values are unique; not have duplicate in the list
而标记数据集,即包含标记数据的源数据集如下:
['A','C','D','H','J