数据挖掘工作的几点体会

1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类:商业数据挖掘产品具有代表性的SPSS Clementine,SAS Enterprise Miner,IBM Intelligent Miner;SQL Server2005属于集成了挖掘模型类的,挖掘算法与SQL数据库产品密不可分,你甚至可以把自己实现的数据挖掘算法跟SQL进行集成,Oracle也类似,DB2的BI功能没怎么用,不是很清楚。

2、数据挖掘过程的重点绝对是数据预处理,一般认为预处理工作会占60%-80%时间不等,为什么预处理会如此重要,大家都知道garbage in garbage out的道理,这在整个BI领域都是成立的。商业智能-既然提到智能层面,那就不只是展现,还要做分析和预测(不过现阶段很多BI项目确实只是在做展现,最多加点多维分析)。BI概念提出之初就是辅助战略决策的产物,当然向操作型BI发展的趋势这里不做过多介绍,经验告诉我们战略决策是基于历史和别人现成经验的,怎样从历史数据的展现和分析过程中得到有用知识,不管你是通过报表或多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾。

  (1)如果是基于数据仓库或者数据集市的挖掘,那么可直接在仓库或者数据集市中建立挖掘模型源输入(也可叫临时宽表,这个表是根据挖掘业务需求对其他维度表属性的一个综合提取,合适的时间窗口在这里是个要考虑的关键因素);如果是没有仓库或集市这一数据基础,那么就需要一个针对挖掘业务需求字段属性的简单ETL过程了。

  (2)上面只是挖掘源数据的建立,接下来才进入数据预处理的核心阶段,由于源数据(临时宽表)里面很多数据是有偏差的,比如空值,错误值,异常值等...这就需要根据每个业务字段属性的规范标准来进行处理,这步是一个繁杂的工程,数据预处理技术各式各样,比较有代表性的有数据清理、数据集成、数据变换、数据归约、离散化和概念分层等等;而且针对不同字段数据特征,不同的数据处理技术往往会导致挖掘的结果差异。虽然商业数据挖掘产品都提供了常用的数据预处理技术,但要用好,除了需要一些统计学,数据分布等知识外,对该字段对应的业务理解和挖掘过程的数据预处理方法差异的经验积累才是关键因素。就拿属性归约来将,很多挖掘产品有因子分析工具,貌似可以自动对所有属性字段做一个挖掘相关重要性因素从大大小的排序,但这也不能全信,毕竟工具是死的,它只能从数据本身的数理特征去理解和自动分析,例如有些业务字段可能数据分布的特征不符合因子分析的重要性条件,但对该数据挖掘模型贡献确是很大的。这样的情况虽说不多,却是值得注意的地方。

3、经过上面两步,挖掘模型数据输入算是初步建立起来了。接下来需要对所应用的挖掘模型有个初步理解,有朋友赞成挖掘模型是“黑匣子”的观点,有朋友赞成需要对挖掘模型的专业理解。我保持中庸的观点:如果不是做算法研究的朋友,只是做挖掘模型应用,却需要对挖掘模型算法有专业理解是不现实的,毕竟公司讲的效益和效率,不像是在实验室,有的是时间让你查资料,折腾进而对模型有个深入全面的理解;但完全黑匣子也是不妥的,一个对该挖掘模型完全不理解的人,指望能利用该模型挖掘出有用知识是不可能的。一是他不可能对挖掘结果有很好的理解;二是参数的调整是最大障碍,挖掘过程本来就是迭代过程,对算法完全不了解的参数设置乱设一通就指望得出较优模型更是天方夜潭。个人认为对挖掘模型大致原理是有必要了解的,再就是每个参数的范围及所代表的意义和对模型所起作用也是需要了解的。

4、数据规模也是个关键因素,训练数据,测试数据,验证数据?训练数据是选连续五个月加起来10万条记录,还是选连续三个月加起来6万条记录;测试数据是选两个月加起来2万条记录还是只选一个月?如果一个月数据就有几十万条记录,那么采取那种方式抽取几万条记录,是随机取还是写个简单选择算法?10万条记录挖掘模型跑了一晚上才出来结果,用5万条记录跑出来效果跟用10万条记录的差异大不大?抽取几千条记录完全可以用统计模型实现,为什么还要抽取上万记录用复杂的挖掘模型呢?这些因素很难说有个统一标准,相信很多人还是相信自己的经验多一点,像我等菜鸟们也只能指望经验丰富的老鸟们多出几本数据挖掘指南了。

5、不管是需求分析还是挖掘模型的评估及应用,和业务人员和决策者们的充分沟通交流是完全必要的。闭们造车的数据挖掘模型是脆弱的。

(Via:CSDN 博客)

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【实测】谷歌翻译特朗普就职演讲,正确率如何(附技术原理解析)

【新智元导读】 美国新总统特朗普1月21日发表就职演讲,讲话内容受到国内高度关注。新智元使用谷歌翻译对特朗普就职演讲的内容进行了翻译实测,发现谷歌翻译的准确率相...

3228
来自专栏数据科学与人工智能

【自然语言处理】自然语言处理与人工智能

来源:福布斯中文网 说起实现各种各样的智能系统,大家都认为“善解人意”应该是一个最起码的条件,一个绕不过去的条件。实现它的一个重要的桥梁就是语言。 拿语言说事,...

24510
来自专栏DT数据侠

数据带你领略,超市货架的摆放艺术

当你在逛超市的时候,你有没有想过商场里的商品的摆放方式有什么讲究?随着新零售时代的到来,超市如今已经开始逐渐转向精细化运营时代。面对成千上万商品,通过数据收集和...

390
来自专栏斜述视角

用离散的视角看世界

我先问你一个简单的问题,人类是怎么计算时间的?我们总说时间是一条长河,时间是连续不断的,但是我们没有办法直接去描述连续的时间。

561
来自专栏QQ大数据团队的专栏

聚类算法如何应用在营收业务中——个性化催费的尝试

462

推荐系统介绍

我们许多人将推荐系统视为似乎知道我们思想的神秘实体。试想一下Netflix的建议电影的推荐引擎,或者是建议我们应该购买什么产品的亚马逊。自他们成立以来,这些工具...

1927
来自专栏量子位

美图AI绘画机器人上线,小姐姐们,新一轮头像可以换起了

李根 假装发自 Amoy 量子位 报道 | 公众号 QbitAI ? 你是不是也想要一张插画风格的头像?又要像你,又要插画风格、彩绘色系? OK,美图AI绘...

3375
来自专栏AI科技大本营的专栏

周志华:深度学习很有用,但过度追捧就有危险了

周志华教授是蜚声国内外的机器学习专家,也是本届中国人工智能大会的主席之一。他的《机器学习》2016年1月出版之后,迅速成为这个领域的一本权威教材,在一年半的时间...

1.1K4
来自专栏大数据文摘

MIT和Google让AI具备感官统合能力,可将看到听到读到的东西关联起来

1164
来自专栏AI研习社

百度 Deep Voice 实现文本到语音的实时转换;迄今最强核弹 GTX 1080 TI | 开发者头条

▲ 内容预览: 百度实现文本到语音的实时转换 Facebook 发布支持 90 种语言的预训练词向量 英伟达发布迄今为止最强核弹 GTX 1080 TI 每日...

3276

扫描关注云+社区