【思考】实施数据挖掘项目考虑的问题

谈到数据挖掘应从以下三方面加以考虑:一是用数据挖掘解决什么样的商业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。 数据挖掘的分析算法主要来自于以下两个方面:统计分析和人工智能(机器学习、模式识别等)。数据挖掘研究人员和数据挖掘软件供应商,在这一方面所做的主要工作是优化现有的一些算法,以适应大数据量。另外需要强调的是,任何一种数据挖掘的算法,不管是统计分析方法、神经元网络、各种树分析方法,还是遗传算法,没有一种算法是万能的。不同的商业问题,需要用不同的方法去解决。即使对于同一个商业问题,可能有多种算法,这个时候,也需要评估对于这一特定问题和特定数据哪一种算法表现好。 做数据挖掘研究的人,往往把主要的精力用于改进现有算法和研究新算法上。人们都知道数据准备是必不可少的一步,但很少有人去真正花时间和精力去研究。其实数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。 众所周知,SQL是广泛用于数据库查询的语言,有很多数据挖掘软件提供商利用SQL来为数据挖掘做数据准备,但就笔者多年来的分析经验和同其他专家探讨感觉到,SQL在很多时候有些力不从心,因为数据挖掘和分析的一些算法通常要求数据具有一定的格式和规范性。 还需要强调的一点是,人们通常把数据挖掘工具看得过份神秘,认为只要有了一个数据挖掘工具,就能自动挖掘出所需要的信息,就能更好地进行企业运作,这是认识上的一个误区。其实要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。再同其他部门协调,把挖掘出来的信息供管理者决策参考,最后把挖掘出的知识物化。在国内的企业中,还很少有决策人员认识到这一点。如果管理者没有这方面的意识,数据挖掘和数据分析就很难发挥应有的作用,很容易走向两个极端,一是认为数据挖掘没有用处,二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。 具体地说,应考虑以下八个问题: 1. 超大规模数据库和高维数据问题; 2. 数据丢失问题; 3. 变化的数据和知识问题; 4. 模式的易懂性问题; 5. 非标准格式的数据、多媒体数据、面向对象数据处理问题; 6. 与其他系统的集成问题; 7. 网络与分布式环境下的KDD问题。 8. 个人隐私问题

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-07-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏EAWorld

DevOps是MindSet:工具也好,文化也罢,人员才是关键

任何变革都需要时间,DevOps亦然。在经过数年的蛰伏期之后,DevOps终于成为了业界聚焦点;不过,从知其然到知其所以然,再到最终完美实现DevOps,依然前...

32713
来自专栏腾讯大讲堂的专栏

产品经理探索之路:如何理清思路确定方向?

导语 在设计和运营产品的过程中,产品经理们或多或少会遇到这样的问题:产品方向不明确,对未来也毫无头绪,不知道要如何走。针对这个问题,我们简单谈谈如何破局,更快的...

19710
来自专栏新智元

【调查】The State of AI:关于人工智能的 6 大真相

【新智元导读】柏林一家AI初创公司Explosion AI最近做了一份针对AI当前状态的调查(The State of AI),调查对象面向AI从业人员,调查的...

3377
来自专栏云计算D1net

云计算离超级云计算还有多远?

单就一个行业而言,一直以来我们对于云计算所带来好处的认识可能显得过于狭窄了。如果云计算是一次真正的革命性变革,那么它就必须能够支持生产和用户体验的模式,而这些都...

4246
来自专栏日志易的专栏

运维未来的发展方向是智能运维(AIops)

近年来运维技术飞速发展,运维团队大多建设好了各种系统:虚拟化、容器化、持续集成等等。但是如何有效的利用这些系统最终实现站点的高可用、高性能和高可扩展?随着智能化...

7582
来自专栏腾讯云TStack专栏

叮咚!您有一份安全易用的私有云解决方案待查收

TStack是腾讯云基于自身强大技术能力和海量运营经验推出的私有云平台,提供集IaaS、PaaS和SaaS为一体的综合云服务解决方案;大量私有化部署经验,具备...

2193
来自专栏SDNLAB

HCI横向扩展架构强化网络

超融合基础设施(HCI)正在数据中心里越来越火热,根据451 Research近期发布的一项调查发现,40%的IT组织已经部署了HCI平台。 HCI是融合基础设...

2628
来自专栏数据科学与人工智能

【陆勤阅读】探索机器学习中的数据科学

原文作者:原微软技术与研究部门合伙人数据科学架构师Mario Garzia 译者:杜红光 数据科学与“大数据”已经成为21世纪高科技产业的流行语。而“大数据”这...

20110
来自专栏互联网数据官iCDO

Facebook广告投放无从下手?这篇入门级干货你得读一读!

引言:在创建Facebook广告之前,你需要理解并选择你的营销目标。以下是一些可以帮助你评估和选出最合适你的广告系列目标的建议,对于刚开始着手Facebook广...

864
来自专栏腾讯大讲堂的专栏

从0到1,浅谈需求的模型转化

作者:张一弛,华中师大硕士毕业。曾就职于阿里巴巴移动事业群,负责UC浏览器海外版产品工作。2014年加入腾讯,先后在QQ群、QQ HD、PC QQ等产品线从事产...

2935

扫码关注云+社区