前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据源波动?试试动态审批模型框架~

数据源波动?试试动态审批模型框架~

原创
作者头像
BBBlue
修改2019-12-23 11:50:19
6690
修改2019-12-23 11:50:19
举报

从动态数据源的角度出发,针对对外部数据依赖同时又担心数据源不稳定的业务,提出一种基于模型组合的动态模型融合方法。防患于未然。

一、模型框架 

每种数据源一个单模型,通过各种AUC作为权重,进行加权融合。融合时候需要保证两点:

1. 对分数进行标准化。分数标准化针对单个模型,在离线训练过程中就可以做。因此不涉及上线部署问题。

2. 对权重进行标准化。需要判断当前样本究竟走哪几个模型。然后对相关模型的权重进行标准化,需要部署在线上进行逻辑判断。

二、使用方法

图每种数据源一个单模型,通过各自离线训练时在时间外样本上的AUC值作为权重,进行加权融合。在实际使用时,用户具有哪种数据源,则在对应的模型子集上,对权重进行标准化,并加权求均值,得到最终结果。融合时候需要保证两点:

  • 对分数进行标准化。在模型融合时,必须先将不同模型的输出结果进行标准化处理。以一个极端情况为例:模型与模型融合时,模型在数据集上的预测范围为,而模型在数据集上的预测范围为。模型预测的样本最低分也高于模型预测的样本最高分。此时两个模型的输出求加权平均显然是不合理的。必须对齐输出的概率值的取值范围。
  • 对权重进行标准化。需要判断当前样本被哪些数据源覆盖,然后对相关模型的权重进行标准化。需要部署在线上进行逻辑判断。标准化公式为:

三、稳定性

根据经验来看,多模型融合的稳定性和样本调用的差异化模型数量成正比。前提是单模型效果接近且模型之间的差异足够大。因此需要通过单模型的AUC值和多模型之间的MIC值对数据源进行评估。

四、接入数据源建议

保证融合后整体的效果好且稳定,需要保证3点:

  1. 接入数据源有效,单模型AUC值不能明显低于其他模型。
  2. 不同数据源训练的模型MIC值差异较大。信息源相似的模型,其融合结果对整体区分度没有明显帮助。
  3. 预留同质数据作为备选,以备某类数据突然被斩断。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、模型框架 
  • 二、使用方法
  • 三、稳定性
  • 四、接入数据源建议
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档