金融科技|风控建模技术方案

陆勤_数据人网

发布于 2021-07-15 15:44:49

1.7K0

发布于 2021-07-15 15:44:49

风控建模的技术方案

逻辑回归模型

在银行的传统评分卡建模中，应用的也是逻辑回归模型。逻辑回归本质上是一个线性分类模型。如果特征和标签并不是单调的增减关系，必须要做特征的分箱处理，及把特征值的主值区间划分为若干段，1个连续值特征会变为n个0-1取值的one-hot特征。对于金融科技公司在建模所遇到的大量的弱特征，如何挖掘多个特征之间的互补性，产生组合的分箱特征是一个技术挑战。暴力的NxN组合甚至更高维的特征组合，将导致特征维度的组合爆炸，依赖于模型和算力来进行模型挑选，是一个耗费机器算法的方案。而人工理解特征之间的相关性和互补性后，进行特征的分箱组合的方法，在海量特征维度面前基本不可行。

树模型

Xgboost、GBDT、和RandomForest都是应用多棵决策树模型的组合，来对特征进行切分组合并得到最终每一块小的高维空间的拟合得分。首先，树模型能够自动的从数据里得到特征的分箱边界和分箱特征的组合，例如如果我们选择树深度为3，那么得到的树模型的每一颗树的从根到叶子节点的路径是3个分箱特征的组合。其次，Xgboost和GBDT考虑了树和树之间的互补性，在特征选择上倾向选互补性强的特征组合。此外，树模型也是一个能很好处理上千甚至上万维度的连续值特征数据的建模方法。因此，在处理大量的高维度弱特征数据时树模型有很广泛的应用，并取得了出色的实际效果。

树模型和逻辑回归模型的结合

因为树模型能够很好的发掘特征的非线性特性和分箱特征的组合关系，而逻辑回归模型在分箱特征上有不弱于树模型的数据拟合能力，但有着计算简单和训练迭代快速的优势。所以，利用树模型在海量历史数据上训练得到一个模型来进行特征的分箱、离散化和二值化，然后利用逻辑回归模型基于分箱特征用最新的样本数据对模型进行增量更新，是一个可以充分利用树模型的特征组合挖掘能力和逻辑回归模型的快速迭代更新能力的技术方案。

深度学习模型

基于深度学习的技术路线会面临两个挑战。一方面，深度学习模型都有很高的模型复杂度，需要大规模的样本数据，而风控领域要获取大规模的样本数据的成本极高。而且，不同时间段、不同机构的放款数据是否具有稳定可发掘的模式、可相互迁移，也有待建模试验检验。另一方面，如前所述风控特征数据的维度间是平行的，不存在邻近关系，较难利用CNN和RNN这样具有较好物理含义的深度学习模型，而简单的堆砌若干个全连接层在高维特征数据上是很难得到一个稳定的模型。

总之，金融风控模型是一个既传统又新鲜的技术问题。银行的风控模型已经随着银行业的发展应用了数十年。而互联网金融面临的如何组合大量的弱特征数据对于用户的逾期行为给一个准确的预测，是一个新出现的技术课题，技术方案也在快速的迭代演进中。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-07-05，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习