从动态数据源的角度出发,针对对外部数据依赖同时又担心数据源不稳定的业务,提出一种基于模型组合的动态模型融合方法。防患于未然。
每种数据源一个单模型,通过各种AUC作为权重,进行加权融合。融合时候需要保证两点:
1. 对分数进行标准化。分数标准化针对单个模型,在离线训练过程中就可以做。因此不涉及上线部署问题。
2. 对权重进行标准化。需要判断当前样本究竟走哪几个模型。然后对相关模型的权重进行标准化,需要部署在线上进行逻辑判断。
图每种数据源一个单模型,通过各自离线训练时在时间外样本上的AUC值作为权重,进行加权融合。在实际使用时,用户具有哪种数据源,则在对应的模型子集上,对权重进行标准化,并加权求均值,得到最终结果。融合时候需要保证两点:
根据经验来看,多模型融合的稳定性和样本调用的差异化模型数量成正比。前提是单模型效果接近且模型之间的差异足够大。因此需要通过单模型的AUC值和多模型之间的MIC值对数据源进行评估。
保证融合后整体的效果好且稳定,需要保证3点:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。