【思考】实施数据挖掘项目考虑的问题

谈到数据挖掘应从以下三方面加以考虑:一是用数据挖掘解决什么样的商业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。 数据挖掘的分析算法主要来自于以下两个方面:统计分析和人工智能(机器学习、模式识别等)。数据挖掘研究人员和数据挖掘软件供应商,在这一方面所做的主要工作是优化现有的一些算法,以适应大数据量。另外需要强调的是,任何一种数据挖掘的算法,不管是统计分析方法、神经元网络、各种树分析方法,还是遗传算法,没有一种算法是万能的。不同的商业问题,需要用不同的方法去解决。即使对于同一个商业问题,可能有多种算法,这个时候,也需要评估对于这一特定问题和特定数据哪一种算法表现好。 做数据挖掘研究的人,往往把主要的精力用于改进现有算法和研究新算法上。人们都知道数据准备是必不可少的一步,但很少有人去真正花时间和精力去研究。其实数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。 众所周知,SQL是广泛用于数据库查询的语言,有很多数据挖掘软件提供商利用SQL来为数据挖掘做数据准备,但就笔者多年来的分析经验和同其他专家探讨感觉到,SQL在很多时候有些力不从心,因为数据挖掘和分析的一些算法通常要求数据具有一定的格式和规范性。 还需要强调的一点是,人们通常把数据挖掘工具看得过份神秘,认为只要有了一个数据挖掘工具,就能自动挖掘出所需要的信息,就能更好地进行企业运作,这是认识上的一个误区。其实要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。再同其他部门协调,把挖掘出来的信息供管理者决策参考,最后把挖掘出的知识物化。在国内的企业中,还很少有决策人员认识到这一点。如果管理者没有这方面的意识,数据挖掘和数据分析就很难发挥应有的作用,很容易走向两个极端,一是认为数据挖掘没有用处,二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。 具体地说,应考虑以下八个问题: 1. 超大规模数据库和高维数据问题; 2. 数据丢失问题; 3. 变化的数据和知识问题; 4. 模式的易懂性问题; 5. 非标准格式的数据、多媒体数据、面向对象数据处理问题; 6. 与其他系统的集成问题; 7. 网络与分布式环境下的KDD问题。 8. 个人隐私问题

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-07-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

年底跳槽好福利,数据挖掘工程师面试指南

数据挖掘领域是一个独特的行业,通常的招聘方法可能不大适用于本行业的特点。在招聘一个合格的数据挖掘工程师时,公司一般关注以下三个方面: 1、他聪明吗? 聪明意味着...

26310
来自专栏数据科学与人工智能

【数据科学家】数据科学家的4种数据科学工作,8项求职技能

“数据科学家”被誉为21世纪最性感的工作(Thomas Davenport和D.J. Patil在哈佛商业评论上曾发表的一篇文章中称),但如何成为一个数据科学家...

2089
来自专栏阿杜的世界

工作经验谈

592
来自专栏数据科学与人工智能

【数据科学】Data Scientist的出路是什么?4种数据科学工作,8项求职技能

“数据科学家”被誉为21世纪最性感的工作(Thomas Davenport和D.J. Patil在哈佛商业评论上曾发表的一篇文章中称),但如何成为一个数据科学家...

2366
来自专栏大数据挖掘DT机器学习

数据科学家的4种数据科学工作,8项求职技能

“数据科学家”被誉为21世纪最性感的工作(Thomas Davenport和D.J. Patil在哈佛商业评论上曾发表的一篇文章中称),但如何成为一个数据科学家...

3408
来自专栏PPV课数据科学社区

有python基础,学大数据还需不需要学java?

Q:学校里的大佬学长说他们搞大数据基本是python,java很少,但一个培训机构的老师说大数据的许多框架都是java写的,本人有python的基础,想学大数据...

3279
来自专栏程序你好

你想要招聘一个掌握多种语言的开发人员吗?

681
来自专栏程序员互动联盟

编程到底难在哪里?

疑惑一:数据结构和算法学的晕乎乎的?怎么破局? 数据结构是算法的基础,原则上不推崇先去学习数据结构,数据结构就是对基础的组合和应用了,在基础语言还不行的情况下,...

32610
来自专栏CDA数据分析师

优质数据科学课程推荐:总结篇

原作者   David Venturi 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 一年以前,我还只是一个没有任何编程经验的技术宅...

2088
来自专栏灯塔大数据

洞察|大数据分析专家?或许这样的人根本不存在!

因为大数据这个词过于“忽悠”,乃至于大数据分析专家也让人十分景仰而不知其真身。 说实话,什么样的人可以称为大数据分析专家可能根本没有一个标准。就像笼统的说这个人...

3295

扫描关注云+社区