金融科技行业如何开展数据建模工作呢? 我给大家介绍三种数据建模框架,分别是IBM公司的CRISP-DM,SAS公司的SEMMA和我总结的PDFMV。
IBM公司的CRISP-DM,全称是跨行业数据挖掘标准流程。如下图所示:
这个流程包括这些环节:
SAS公司的SEMMA,分别代码Sample(数据采样),Explore(数据探索),Modify(数据调整),Model(建模),Assess(评估)这5个核心环节。如下图所示:
每个环节关注的核心内容。
我总结的PDFMV,它是Problem-Data-Feature-Model-Value五个英文单词的首字母组合而成,是以问题为导向,数据为驱动,利用特征和模型学习知识和模式以创造价值的系统化过程。
这个框架,包括这些环节:
PDFMV框架是我做数据工作和数据项目的方法论,它可以让我全面而系统地认识和落实一个项目。好比中医看病的“望闻问切”,给我做数据项目指明了方向,并且有始有终。
把一个数据项目做好,并非易事。但是,掌握正确的思维和方法,可以让我们成事的概率更高。
我是陆勤,在金融科技行业从事数据科学工作,也是一名终身学习者。我工作过的内容主要包括数据清洗和准备、风控评分模型、数字营销模型、风控策略分析、数据建模环境构建和维护等。