首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

模型流水线-从0到1做模型(2)

请大家关注我的公众号“数据风控和模型那些事”,如有错误或遗漏或约稿请留言给我。如需转载请注明原作者及出处,正文不建议修改,正文标题前的闲扯部分请随意。

风险模型浅谈(十)

从0到1做一个模型(2)

国庆庆节的七天过的可真快,快到我只来得及写了一篇,稍微减缓了一下我长时间没有更新的罪恶感。

模型的需求定义

今天我们要讨论的是-磨刀不误砍柴工。在真正投入资源去建立一个模型前,如何研究模型的可行性。本章节的内容覆盖了,流程图中的如下部分:

模型POC

“谁是我们的敌人,谁是我们的朋友,这个问题是革命的首要问题。”

搞清楚为什么要做模型,是每一个希望深耕行业的模型工作者必须要想清楚的问题。先有需求,再谈模型,而不是相反。

通常为了搞清楚需求,我们最好要回答下面几个问题:

业务需求到底是什么?

这是不是一个伪需求?

这个需求是可达的么?

需求的可达性,可能很多同学接触的很少。当我们真正做模型前,最好要搞清楚,这个模型的成果真的要显著优于随机。千万别以为这是一个利索当然的事。

有时候真正做模型是一件非常耗时耗力的事,在我们真正摆开架势干活之前,要做一些简单的论证工作,即POC (Proof of Concept)。通常我们常用的POC工具叫做【QUICK MODEL】,这个是指我们先很快做一个模型,即不做特别深度的特征工程、也会放过很多必须的模型的假设和论证,希望用很少的工作来证明这个模型【可能的】有效性。这个其实也是数据收集和数据探索要做的事情,我们稍后再讨论。

但在模型POC的过程中,有以下两个潜在的风险:

因为没有深度挖掘数据的特征,从而低估模型潜在的价值;

因为忽略了很多模型的有效性检验,造成过拟合,从而高估模型潜在的价值;

在不同的场景下,这两个因素产生不同的影响,这就要借助每个人的经验了。

模型的场景和局限

为了搞清楚一个模型的应用场景和局限性,以及后续为模型准备数据时的一个行动纲领,在开始一个可能即将耗费非常多资源的模型的工作之前,一个模型可行性报告是非常必要的,就算不写一个正式的报告,但也应该对如下的内容有比较清晰的认识。

模型的应用场景?

模型将如何被应用到信用策略中?

信用评分如何应用在风控策略里

可供使用的数据时间窗口及数据量是什么?

模型的因变量Y是什么?那些可以被度量的风险

可能会使用的自变量X是什么?每一种不同数据源的成本、对于模型应用的影响以及数据源的稳定性。

所有模型时间点的自变量时候可以获得(是否可以回溯)?

POC的结果及其分析。

模型将使用什么数据方法?该数学方法是够能够被部署到生产系统里?

模型是否要分群?

模型开发的可能时间表?

是否有外部因素可能会影响到模型部署后的有效性?

以上这些问题,有些是能够相对简单直接回答的,有些问题同样需要我们经过【数据收集】和【数据探索】来回答,这也是流程图中在这里我做了一个循环的原因,清晰定义一个模型不是【拍脑袋】就决定的过程,而是一个不断从【假设】到【论证】的循环过程,并逐渐得到证实可行方案的一个过程。

数据收集

为了在定义模型的过程中更好的了解数据,数据收集是一个必要的步骤。在这里主要要做两件事,

收集所有可能的内部数据。在数据设施建设的比较完善的企业中,这里相对简单,可能只用写几段SQL就可以以;但在绝大多数不那么完善的情况下,就比较痛苦了,将涉及到非常多原始数据解析的工作。

在内部数据数据不足或有潜在外部数据可以使用的情况下,收集外部数据,这里要注意【回溯】和【成本】。

数据收集一般有如下类成果物,分别是:

一个经过初步处理的宽表。这里主要包含了经过初步特征工程的很多特征。

行为表现数据。这个是我们定义因变量主要需要的数据。

特征原始数据。这些可能是比较杂乱的原始数据,甚至有可能是未被解析的文本文件。

数据探索

在数据探索阶段,就像在上文提到的,主要需要完成如下几项工作:

了解我们可能自变量是什么?每个不同数据源的查得率,各种有效字段的分布是什么?

针对经过初步处理的宽表,探索所有特征的分布,包括缺失值、各种统计统计量等。你真的懂均值么?

为了定义因变量所需要做的各种分析。

模型POC所需要的其他内容。

小结

综上,从【模型需求定义】,到【数据收集】和【数据探索】的这个循环,其实就是一个简化的模型的流程和对数据逐渐了解的过程,帮助我们真正清晰的了解我们即将面对的问题、潜在的收益和风险。当然不是说每一个模型都必须把这个流程完整的走一遍,对于那些只是做模型【版本迭代】的模型,相当一部分工作可以省去,请大家灵活掌握。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181008G1OIE600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券