1.3 数据挖掘方法论 CRISP-DM

如果你给我一个小时来砍树,我会花二十分钟先磨刀——林肯

在数据分析过程中,开发人员需要与商业人员进行沟通找出一套最佳实践方法,这有助于项目人员更好地站在商业的角度理解数据挖掘的目标。此处,仅拣选以下一种业界普遍认可、使用范围广的数据挖掘方法CRISP-DM作简单介绍,同时概括如何使用Power BI/Tableau帮助流程落地。

CRISP- DM(cross-industry standard process for datamining),即为"跨行业数据挖掘标准流程",由欧盟机构联合起草,通过近几年的发展,2014年其采用量已达到43%。所谓跨行业,就代表通用性,其方法并非仅供IT人员、数据科学家专用,也适合不同行业的专业人士在挖掘商业价值时应用。

图1.3.1 CRISP-DM的步骤流程

如图1.3‑1所示,CRISP- DM包含了六个步骤。下面简单介绍Power BI/Tableau在其中可以发挥的作用:

第一阶段商业理解(Business Understanding)

此阶段,项目人员需要从商业的角度了解项目的要求和具体要解决的问题,并思考如何从数据挖掘的角度定义和完成目标的初步计划。商业角度的项目要求一般这样表述:通过广告推广令年度A产品的销售增长提高10%,分析师需要了解哪些商业运作方式可能帮助完成此目标,为此,哪些数据挖掘可以为此方式带来价值。

本阶段要点为:

定义商业需求

评估现状

定义数据挖掘的目标

准备项目计划

Power BI和Tableau提供多种视觉图形,让分析师能够通过“图形+数字”的方式呈现商业问题以及评估现状。此阶段需要分析师的洞察力和创造力。

第二阶段数据理解(Data Understanding)

此阶段从初始的数据收集开始,分析师应熟悉数据及其内部属性、识别数据的质量问题和局限性,对于数据是否能够解决商业问题,是否需要更多外部数据,如何估算成本等问题有较明确的认识。

本阶段要点为:

收集数据

描述数据

识别探索数据

分析师通过Power BI/Tableau可以连接不同类型的多个数据源,在同一的界面下高效地进行数据理解,降低人力和时间成本。

第三阶段数据准备(Data Preparation)

数据准备阶段包括从原始数据中构造最终数据集的所有活动。为建模阶段做准备。这个阶段的任务有可能被执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及使用模型工具转换和清洗数据。

本阶段要点为:

选择数据

清理数据

结构化

集成数据

格式化

数据准备阶段是最耗时的一个流程,有机构认为数据分析过程中80%的时间消耗在数据准备中。分析师通过PowerBI中的“编辑查询”和Tableau中的TableauPrep可以有效快速地完成各种各样的数据准备任务:合并、删除、更正、拆分、类型转换等等,再将处理完的数据无缝加载至数据模型中,分析师也能更好地集中精力在有价值的分析上。

第四阶段建立模型(Modeling)

在这一阶段的主要任务是建立数据与数据之间的关系并创建度量、选择KPI,各种各样的建模方法将被加以选择和使用。对于数据挖掘中相同的问题类型,可以选择多种方法使用。通过方法间的对比,评估模型及其参数将被校准为最优。如果建模方法对数据的形式有额外的要求,则有必要回到数据准备阶段重新调整数据。

本阶段要点为:

选择技术

设计测试

建立模型

评估模型

Power BI的“关系”功能专为建模而设计,操作界面友好简单,无需代码完成,可以智能匹配数据表间的关系,用户也可以手动修改特殊关系。分析师通过分析语言DAX编写度量、KPI、计算列,能直接使用PowerBI展示商业逻辑表达。Tableau通过“联接”和“混合”功能共同完成数据表关系搭建,也拥有自己的查询语言系统以帮助完成多种复杂商业逻辑表达。

第五阶段模型评估(Evaluation)

此阶段之间已经建立了高质量的模型,但在正式部署前,模型要经受更加全面的评估,以确保模型设计结果符合商业理解目标,避免直接部署后高成本的模型修改。如果发现模型与实际目标间的确存在差距,则需要折回第一阶段商业理解,继续迭代,直到模型设计趋于完善为止。

本阶段要点为:

评估结果

流程复审

制定部署计划

Power BI/Tableau的分享功能可以将完成商业报表在线分享给商业客户以供评估。TableauServer还有在线反馈功能,客户可以直接在线留言,给与及时的评估回馈,这个功能非常贴心。因为二者都是敏捷型BI,一旦发现模型问题,分析人员可以快速在模型中更正,整个迭代过程十分高效快速。

第六阶段结果部署(Deployment)

部署即是把挖掘结果以要求的方式呈现给用户。部署阶段可以简单到仅仅写一份报告,也可以复杂到在企业中进行可重复的数据挖掘程序。在许多案例中,往往是由客户而非数据分析师来执行部署阶段。

本阶段要点为:

部署步骤

最终报告

最终结果

通过Power BI和Tableau,分析师可以将最终设计(甚至包括模型代码)全部在线交付给用户,最终由用户自行完成最终的部署。整个部署步骤也是相当直观、易于操作的。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181006G0STP200?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券