前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >金融科技:数据建模框架

金融科技:数据建模框架

作者头像
陆勤_数据人网
发布2022-01-20 15:46:49
1K0
发布2022-01-20 15:46:49
举报

金融科技行业如何开展数据建模工作呢? 我给大家介绍三种数据建模框架,分别是IBM公司的CRISP-DM,SAS公司的SEMMA和我总结的PDFMV。

01

CRISP-DM

IBM公司的CRISP-DM,全称是跨行业数据挖掘标准流程。如下图所示:

这个流程包括这些环节:

  • 1 业务理解:定义业务问题,确定业务目标,制定项目计划。
  • 2 数据理解:梳理需要哪些数据,如何收集,数据探索性分析,数据质量报告。
  • 3 数据准备:数据整理、数据清洗,数据集成,数据再格式化。
  • 4 建模:数据划分,模型选择和构建。
  • 5 评估:从技术和业务角度,评估模型的有效性和稳定性。
  • 6 部署:最终模型上线、部署、监控。 这个流程是一个闭环系统,给我们建模的启示。
  • 1 正确定义好业务问题。
  • 2 垃圾进、垃圾出,需要重视数据的质量。
  • 3 模型的迭代和优化过程,模型构建好后,不是一劳永逸的,而是需要监控和持续优化的。通过分析模型效果偏差后,确定模型优化路径。

02

SEMMA

SAS公司的SEMMA,分别代码Sample(数据采样),Explore(数据探索),Modify(数据调整),Model(建模),Assess(评估)这5个核心环节。如下图所示:

每个环节关注的核心内容。

  • 1 数据采样:一要正确反映业务分析需求,二要考虑数据的规模和维度。
  • 2 数据探索:深入理解数据的过程,利用统计学和数据可视化技术。
  • 3 数据调整:数据转换和再格式化。
  • 4 建模:模型设计和构建。
  • 5 评估:模型评估和调优

03

PDFMV

我总结的PDFMV,它是Problem-Data-Feature-Model-Value五个英文单词的首字母组合而成,是以问题为导向,数据为驱动,利用特征和模型学习知识和模式以创造价值的系统化过程

这个框架,包括这些环节:

  • 1 Problem(问题):任何一个数据类型相关的项目都要从有价值的问题出发。因此,我们一定要定义好问题,定义清楚问题,需要我们使用“底层思维”,也就是那“万变不离其宗”的原则。在定义问题的时候,我们可以从问题的为什么、是什么、怎么样三个层次来深入剖析所面临的问题和要解决的问题。
  • 2 Data(数据):不管是分析,还是建模,我们的原料是数据。原料好不好,决定了我们最终结果的上限。因此,在数据阶段,我们需要重视数据的源头、数据的聚集、数据的质量、数据的探索、数据的理解、数据的清洗、数据的转换等一系列与数据相关的工作。若是以做菜打比方,我们要知道如何去找菜,选菜,评菜、洗菜、切菜、配菜等基本而重要的操作,这也是一般厨师和高级厨师差异。
  • 3 Feature(特征):所谓特征,就是从各个维度或者角度来描述一个问题或者一个对象。关于特征这块,我们可以利用领域知识、先验知识、数据探索的知识,先全方位地做好特征升维。换句话说,就是让自己做到能够更全面地看待问题。在开展分析和挖掘的过程中,通过一些方法去选择对目标有作用,并且避免特征之间的冗余,以实现特征的降维。总之,特征这块,一要学会多角度看问题,二要做好特征升维和降维工作。
  • 4 Model(模型):模型阶段,就是要去找到一个适配当下业务问题的模型,一来能够从训练集中学习到模式,并且较好地泛化到测试集或者时间外样本验证集,二来让模型尽量简洁,并且具有可解释性。在做数据建模的时候,需要妥善地处理一些与模型相关的关键问题,罗列如下:1)数据集如何划分;2)模型如何选择;3)超参数如何调整;4)模型如何集成和融合;5)模型的解释性和准确性如何平衡;6)模型的稳健性和鲁棒性如何衡量等。
  • 5 Value(价值):在问题侧的时候,我就说了问题要始于价值。同样,在终点的时候,我们的结果还是要回归于价值。以“底层思维”——如何盈利?回答价值,我们需要客观地分析和量化所做数据项目是否发挥了这些积极作用。1)是否有降低成本的功效;2)是否有增加收入的功效;3)是否有提升效率的功效;4)是否有控制风险的功效。而3)和4)最终还是回归于与1)或者2)。因此,我们需要重视每个数据项目的价值,有没有价值,有多大价值,价值是否具有持续性。

PDFMV框架是我做数据工作和数据项目的方法论,它可以让我全面而系统地认识和落实一个项目。好比中医看病的“望闻问切”,给我做数据项目指明了方向,并且有始有终。

把一个数据项目做好,并非易事。但是,掌握正确的思维和方法,可以让我们成事的概率更高。

我是陆勤,在金融科技行业从事数据科学工作,也是一名终身学习者。我工作过的内容主要包括数据清洗和准备、风控评分模型、数字营销模型、风控策略分析、数据建模环境构建和维护等。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-01-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01
    • CRISP-DM
    • 02
      • SEMMA
      • 03
        • PDFMV
        相关产品与服务
        数据集成
        数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档