首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >对顽固的召回结果进行补救?

对顽固的召回结果进行补救?
EN

Data Science用户
提问于 2022-02-17 14:44:42
回答 1查看 23关注 0票数 1

我在做一个与预测信贷违约相关的项目,损失为0-1 .召回是一项至关重要的措施,在这种情况下,应该最大限度地提高召回率,同时监测结果是否正确。由于通常使用这些数据,样本严重不平衡,缺省情况的频率较低。虽然我训练过的算法(套袋/提升树,logistic回归等)查全率高,查全率高,召回率低。

我试着用概率控制的方法来标记预测的案例,也就是减少它,但是在精确性和准确性方面,小小的提高召回量是非常昂贵的。

难道我注定要失败,因为那些没有被召回的默认案例是不可分的,还是有办法解决这个问题?

我曾经想过可能对数据进行一些聚类,并为不同的集群拟合不同的子模型,但我不知道如何进行。

我还考虑过以这样一种方式进行次抽样,即默认的和非缺省的将更加不平衡,并重复这样的过程,使缺省情况保持不变,而不会在示例中更改默认情况。后来创造了一个陷阱。

EN

回答 1

Data Science用户

发布于 2022-02-19 22:04:27

也许我没有意识到这一点,但我严重怀疑是否存在这样的诡计;)

在这种情况下,召回量的任何微小增加都会导致精确性的大幅下降,这并不奇怪。比方说,你买的东西既稀罕又昂贵,有些东西又普通又便宜,所以你必须放弃大量的后者,才能得到前者的一些东西。我认为,所有基于重采样的方法或多或少都会造成同样的问题,尽管有些方法略有改进。

它根本不能保证更好地工作,但我建议尝试一些方法,如异常检测或一种类别分类。

将其转化为回归问题可能也很有趣,目标不是真正预测违约事件,而是量化违约发生的风险。当然,它不会表现得更好,但我认为这种设置更现实:所发生的情况是,许多人面临违约风险,但实际上只有一些人会偶然违约,或者至少是因为不太可能出现在数据中的原因。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/108255

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档