经验谈:数据挖掘七步走

Step1.商业理解

就是商业问题的理解了,那么如何更好的理解“老大”提出的商业问题困惑呢?我觉得思维导图倒是个不错的选择,当然自己要想更好的理解“老大”的意思还需要进一步的沟通,商业问题的理解关系到这个挖掘项目的价值,甚至成败,所以在这块大家要显得“外向”一些,多交流、多沟通、多了解这个商业问题背后的东东;

step2.字段提取

接下来就是需要提取的字段,也就是数据挖掘的宽表,这点就要和企业的DBA人员多多交流,看数据库中各个维度的表格都有什么字段,主要关联的主键有那些,那么如何选取字段呢?这就需要自己把自己与“老大”共同讨论的思维导图拿出来看看,这样就有提取那些字段的感觉了,这部分大多数的提取是自己对商业问题的感觉或者一些前辈的经验;

Step3.数据的ETL

数据的ETL,这部分一般的时间占数据挖掘项目的70%左右,为什么数据的ETL如此重要呢?万丈高楼平地起,如果连地基都是“豆腐渣工程”的话,那么再华丽的楼房也没人愿意掏腰包;嘿嘿,开个玩笑;数据的ETL主要是一些异常值、空值(miss值)、错误数值的处理,这部分一般需要根据数据自身的分布、简单的统计知识、该字段体现的业务特点、自己的经验进行的,也就是这一部分的处理主要是统计知识+项目经验+业务特点;

Step4.变量选择

建立模型所需要的变量如何选?当然目标变量(Y)一般都是事前设定好的,那么X如何找呢?大多数都是应用相关分析、特征选择、描述性的统计图表(分箱图、散点图等),这里我只想说一句算法是死的,有时候我们根据算法得出来的X对Y没有影响,但在实际的业务中影响却很大,所以大家不要过于依赖算法、工具,我曾经因为这点,被人批了,555~~~~~

Step5.数据挖掘建模

建立数据挖掘模型,这块是许多同行相当痴迷的地方,我也不例外,记得大学毕业去北京的时候,就在咨询公司研究算法什么的,后来经过leader的几次谈话,自己才慢慢走出了误区;一句话,我们追求的是模型带来的效益,所以没那么多时间去玩模型、搞算法;但是作为数据挖掘从业者,最基本的应该是了解各种算法的原理,还有一些数据挖掘模型参数的意义,比如在spss clementine中就有自定义和专家两个供大家选择,所以掌握一些参数的意义也是有必要的,大家可以上网下一些人大数据挖掘的视频教程,里面讲的比较详细;

Step6.模型评估

模型评估,大部分都是借助数据挖掘自带的评估模型来做,什么准确度、收益率等,理论上很完美,实际中就一定有疗效吗?非也!有时候模型跑出来的信息很诡异的,建模人员都无法知道这个结果如何去解读,这时我倒是觉得可以从模型中选取一部分人群来做一下简单的调研,或许能获得更多数据背后的东西,也能为自己的片子多几分数据解读的色彩,何乐而不为呢?

Step7.模型可视化展示

模型可视化展示,可视化一直是一些数据服务公司所追求的东东,也是我们从业人员一种传达信息的方式,对于一个专题的数据挖掘模型,我相信大家都能通过一些图表、表格或者更炫的PPT搞定,打个岔,我常常遇到这样的问题,在对多维度做交叉分析时,因为涉及许多数据维度的钻取而很难展现给决策者,这时可以用水晶易表来做动态的展示,但是遇到更复杂的逻辑呢?大家不难发现现在大部分的数据分析系统或者叫运营体系的分析维度都是作为一个content展现给使用者,从数据从业者的角度来看,这只是从不同维度对数据进行了切割而已,谈不上真正的数据可视化,路漫漫兮修远兮!业务、维度、用户交互三者融合才是王道

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

推荐算法不够精准?让知识图谱来解决

47220
来自专栏机器之心

学界 | IBM Watson提出人机推理网络HuMaINs,结合人机两者优势

33450
来自专栏CDA数据分析师

我的第一份数据科学实习

在写本文时,这是我在Quantum Inventions公司实习的最后一天。当我坐在电脑屏幕前,反思过去几个月的学习历程,我感到非常的满足。

10330
来自专栏PPV课数据科学社区

数据科学,机器学习和人工智能有什么区别?

当我介绍自己时,经常会被人问到诸如“机器学习和xx有何区别?”或“你在使用人工智能吗?”等问题。类似问题我已经回复了很多次,按照我的"3原则”我决定写一篇博文:...

31650
来自专栏MixLab科技+设计实验室

AI与设计:技术思维与设计思维的mix

最近在思考一些机器学习给设计带来的思维转变,还有对交互设计的影响,本文把一些读书笔记,及感想总结而成,主要是涉及AI技术、技术思维、设计思维、设计工具、用户体验...

14530
来自专栏机器学习原理

知识图谱和可解释性深度学习的发展深度学习问题知识图谱为可解释提供依据利用知识图谱对可解释性应用知识图谱在可解释性上的困难

47140
来自专栏PPV课数据科学社区

我在面试机器学习、大数据岗位时遇到的各种问题

自己的专业方向是机器学习、数据挖掘,就业意向是互联网行业与本专业相关的工作岗位。各个企业对这类岗位的命名可能有所不同,比如数据挖掘/自然语言处理/机器学习算法工...

47260
来自专栏新智元

研究提出能够自我解释的 AI 算法,辅助理解机器决策过程

【新智元导读】加利福尼亚大学伯克利分校和马克斯普朗克信息学研究所的研究提出了一种能够自我解释的算法,有助于让人类理解机器学习的决策过程。这种被称为“指向和对齐”...

38290
来自专栏机器之心

前沿 | 经典计算的天花板:科学家找到只有量子计算才能解决的问题

Oracle Separation of BQP and PH:https://eccc.weizmann.ac.il/report/2018/107/

12410
来自专栏人工智能头条

订单贡献率10%,京东个性化推荐系统持续优化的奥秘

40050

扫码关注云+社区

领取腾讯云代金券