我在做一个与预测信贷违约相关的项目,损失为0-1 .召回是一项至关重要的措施,在这种情况下,应该最大限度地提高召回率,同时监测结果是否正确。由于通常使用这些数据,样本严重不平衡,缺省情况的频率较低。虽然我训练过的算法(套袋/提升树,logistic回归等)查全率高,查全率高,召回率低。
我试着用概率控制的方法来标记预测的案例,也就是减少它,但是在精确性和准确性方面,小小的提高召回量是非常昂贵的。
难道我注定要失败,因为那些没有被召回的默认案例是不可分的,还是有办法解决这个问题?
我曾经想过可能对数据进行一些聚类,并为不同的集群拟合不同的子模型,但我不知道如何进行。
我还考虑过以这样一种方式进行次抽样,即默认的和非缺省的将更加不平衡,并重复这样的过程,使缺省情况保持不变,而不会在示例中更改默认情况。后来创造了一个陷阱。
发布于 2022-02-19 22:04:27
也许我没有意识到这一点,但我严重怀疑是否存在这样的诡计;)
在这种情况下,召回量的任何微小增加都会导致精确性的大幅下降,这并不奇怪。比方说,你买的东西既稀罕又昂贵,有些东西又普通又便宜,所以你必须放弃大量的后者,才能得到前者的一些东西。我认为,所有基于重采样的方法或多或少都会造成同样的问题,尽管有些方法略有改进。
它根本不能保证更好地工作,但我建议尝试一些方法,如异常检测或一种类别分类。
将其转化为回归问题可能也很有趣,目标不是真正预测违约事件,而是量化违约发生的风险。当然,它不会表现得更好,但我认为这种设置更现实:所发生的情况是,许多人面临违约风险,但实际上只有一些人会偶然违约,或者至少是因为不太可能出现在数据中的原因。
https://datascience.stackexchange.com/questions/108255
复制相似问题