我觉得可能有人问过这个问题,但我不知道如何搜索它。基本上,我正在使用随机森林构建一个二进制分类器,并且有很多积极的结果,而不是消极的结果(2k vs ~20)。准确率当然是非常好的,因为测试集通常有0-1个负样本和超过1000个正样本。如果机器学习对于这种情况仍然可行,那么处理如此少量的负面情况的最佳方法是什么?或者数据只是无用的?
我在一个非常不平衡的数据集上训练模型,两个班的比例为80:20。数据集有数千行,我使用
DeccisionTreeClassifier(class_weight='balanced')
我在测试中得到的精确性和回忆是非常奇怪的。
Test set precision : 0.987767
Test set recall : 0.01432
我无法解释结果。这说明了我的分类器是什么?
我正在使用二进制分类器,我想用度量来表示训练数据的“平衡”或“偏斜”。
我想在一份报告中反映这一比率,如下:
Accuracy: 80%
Recall: 78%
Precision: 62%
*The Ratio of Positive to Negative Samples*: 62%
我觉得可能有一个标准的名称来表示“阳性样本与阴性样本的比率”。
我的主要问题是:这个度量的名称是什么?
(此问题假定此度量有一个标准名称。)
额外信息:
以下是度量的一些示例值及其解释:
1.0 = The sample (of training data) is balanced.
0.5 = There
我正在运行一个分类器(logistic回归)。我的数据集上的信息如下:
dataset size= 279 observations
(第80/20号规则)
train size= 233
test size = 56
# of events in train = 31
# of events in test = 8
我想我的分类器和结果可能会因为这个比例不相等而受到影响。有什么办法可以避免偏见问题和提高准确性吗?你个人对这些数据有何看法?