数据为王时代,向前金服“听风者”3.0如何突破数据质量瓶颈

当今时代,数据为王。 人工智能技术承载了人们对于未来世界和商业模式的无限野望,但脱离对数据规模和质量的讨论,无法突破数据造假等瓶颈,就都是空谈。 以智能风控为例,无论采用何种算法,最终决定风控模型精度极限的,还是数据。“不同的算法决定了模型逼近极限的速度,但真正对模型精度起决定性作用的是数据质量,是特征工程。”向前金服模型与应用团队负责人杨林说。

特征工程,指通过对底层数据的清洗、衍生,提取对训练模型有价值的特征这一过程。在8月份向前金服上线的大数据智能风控“听风者”3.0模型的研发过程中,特征工程是最为重要的一环。 规范获取数据原料,优质数据的先决条件 在“听风者”的这次升级中,特征工程占了建模工作三分之二的工作量。 在数据原料上,除多年运营积累的自有数据外,向前金服的风控模型还采用了央行征信中心数据及百行征信、美国个人消费信用评估知名机构FICO等行业数据。 在数据获取上,向前金服一直坚持两个基本原则。 首先,数据要具备高精准度,这是数据质量的决定因素。有了好的原材料,加工出的“菜品”才能营养美味。 其次,数据获取方式要规范,不仅严格筛选技术手段合规的数据源,而且在数据传输全流程采用不可逆的加密算法进行脱敏处理。遵守操作规范,“菜品”才不至于变质。

在获取了丰富多元的原始数据后,需要对数据进行标准化处理,也就是经过数据清洗,才能拥有整齐干净的数据,这是进行变量衍生的基础。 变量衍生,创新技术和业务经验的结合之果 数据经过清洗后,对基础字段上进行衍生,造出衍生变量则是整个过程最艰辛的部分。衍生变量,需要对基础数据进行组合,基于不同关系而产生。“很多时候,单独看一个维度数据很难发现隐藏的风险,但做一些交叉分析,会暴露更多的信息。”杨林说。 而产生衍生变量的难度在于,不仅要基于对业务的深刻理解进行组合,有时还需要建模人员开脑洞对基础变量进行花样组合,并且要经过反复校验。最终变量能否进入模型,要看挖掘出的变量是否对于判定借款人的还款意愿、还款能力有价值。 在这个过程中,以评估个人还款能力和还款意愿为出发点,向前金服模型与应用团队在衍生变量的制造上,采用了创新技术与业务经验相结合的方式。一方面,利用成熟且科学的量化算法,进行大量衍生变量的自动化生成;另一方面,与风控策略等团队合作,利用他们丰富的一线业务经验和对风险点的敏感度,产出与自身业务高度契合的变量。

最终,“听风者”3.0模型的变量候选池规模过万。这意味着,向前金服可对借款用户通过上万字段进行交叉比对,这是在用户画像精准度、风控可靠性等方面跨上了一个新的台阶,也让向前金服资产的优质性有了进一步的提升。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/ELT2019091600602800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券