首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >当响应变量有太多的0's和很少的连续值时建模?

当响应变量有太多的0's和很少的连续值时建模?
EN

Data Science用户
提问于 2014-11-12 09:21:19
回答 1查看 211关注 0票数 3

对于数据表示在线欺诈或保险(每一行代表一个事务)的问题,响应变量通常表示以美元表示的欺诈行为的价值。这样的响应值可能少于5%的非零值,表示欺诈交易。

关于这样的数据集,我有两个问题:

  1. 我们可以使用哪些算法来保证模型不仅可以准确地预测欺诈交易,而且还可以预测与这些欺诈相关的欺诈的价值。
  2. 假设我们可以量化每个假阳性所涉及的成本(将非欺诈交易标记为欺诈性交易)和由于虚假否定而产生的成本(将欺诈性交易标记为非欺诈性交易),我们如何优化该模型以最大限度地节省(或尽量减少损失)?
EN

回答 1

Data Science用户

发布于 2014-11-15 01:30:00

怎么样

  1. 普通最小二乘回归?因为你有一个阶级不平衡,你可能想把它和增强算法结合起来。
  2. 如果您有一个函数来量化与FP和FN相关的成本,请使用您可以找到的任何优化技术。我最喜欢的是遗传算法。你也可以尝试线性规划。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/2451

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档