【思考】实施数据挖掘项目考虑的问题

谈到数据挖掘应从以下三方面加以考虑:一是用数据挖掘解决什么样的商业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。 数据挖掘的分析算法主要来自于以下两个方面:统计分析和人工智能(机器学习、模式识别等)。数据挖掘研究人员和数据挖掘软件供应商,在这一方面所做的主要工作是优化现有的一些算法,以适应大数据量。另外需要强调的是,任何一种数据挖掘的算法,不管是统计分析方法、神经元网络、各种树分析方法,还是遗传算法,没有一种算法是万能的。不同的商业问题,需要用不同的方法去解决。即使对于同一个商业问题,可能有多种算法,这个时候,也需要评估对于这一特定问题和特定数据哪一种算法表现好。 做数据挖掘研究的人,往往把主要的精力用于改进现有算法和研究新算法上。人们都知道数据准备是必不可少的一步,但很少有人去真正花时间和精力去研究。其实数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。 众所周知,SQL是广泛用于数据库查询的语言,有很多数据挖掘软件提供商利用SQL来为数据挖掘做数据准备,但就笔者多年来的分析经验和同其他专家探讨感觉到,SQL在很多时候有些力不从心,因为数据挖掘和分析的一些算法通常要求数据具有一定的格式和规范性。 还需要强调的一点是,人们通常把数据挖掘工具看得过份神秘,认为只要有了一个数据挖掘工具,就能自动挖掘出所需要的信息,就能更好地进行企业运作,这是认识上的一个误区。其实要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。再同其他部门协调,把挖掘出来的信息供管理者决策参考,最后把挖掘出的知识物化。在国内的企业中,还很少有决策人员认识到这一点。如果管理者没有这方面的意识,数据挖掘和数据分析就很难发挥应有的作用,很容易走向两个极端,一是认为数据挖掘没有用处,二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。 具体地说,应考虑以下八个问题: 1. 超大规模数据库和高维数据问题; 2. 数据丢失问题; 3. 变化的数据和知识问题; 4. 模式的易懂性问题; 5. 非标准格式的数据、多媒体数据、面向对象数据处理问题; 6. 与其他系统的集成问题; 7. 网络与分布式环境下的KDD问题。 8. 个人隐私问题

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-07-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏西安软件开发

弈聪软件卓建超:大数据资源使用在非恶性竞争及共享前提下方能凸显其价值

在数据“爆炸”的时代,大数据常常被寄予厚望。到底什么样的数据才算大数据,怎样才能用好大数据?很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称...

1035
来自专栏ThoughtWorks

企业敏捷转型道路|洞见

企业不敏捷就out了 很多企业已经走在敏捷转型的路上,首先始于电信和互联网公司,然后是金融行业,现在连零售这样的传统行业都在尝试转向敏捷。 从2001年敏捷...

3605
来自专栏XIEJUN

未来十种AI人工智能技术

AI人工智能说(或写)出正确的单词并且是连贯的顺序来传达一个明确且清晰的意思,而且还能很容易被听众(或读者)理解,对于一台以完全不同于人脑的方式处理信息的AI人...

1000
来自专栏大数据文摘

深入浅出——大数据那些事

23110
来自专栏PPV课数据科学社区

深入浅出为你解析关于大数据的所有事情

大数据是什么?为什么要使用大数据?大数据有哪些流行的工具?本文将为您解答。 现在,大数据是一个被滥用的流行词,但是它真正的价值甚至是一个...

2624
来自专栏IT派

每个数据科学家都应该学习4个必备技能

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为...

4209
来自专栏AI科技评论

干货 | 想成为真正的数据科学家,除了资历你还需要这4个技能

科技评论按:「数据科学家」可谓是从「大数据」和「机器学习」双双开始普及之后催生的热门职位之一了,许多接触或者学习了机器学习的学生和程序员都期待自己能够成为数据科...

3318
来自专栏移动端周边技术扩展

关于项目新功能

1415
来自专栏数据猿

金融科技&大数据产品推荐:Chinapex创略智能客户数据平台——开启智慧营销之旅

智能、实时的客户数据平台是一个独特的解决方案,由AI和机器学习驱动,助力企业完成从多数据源采集、分析,到数据运用的闭环,支持各种客户相关的应用场景,包括营销、客...

6225
来自专栏云计算D1net

什么是多重云?云计算的下一步

导语 “多重云”意味着使用多个公共云。当企业试图避免对单个公共云提供商的依赖时,从每个公共云中选择特定服务以获得每个公共云的最佳服务,或者他们希望获得双方利益...

3288

扫码关注云+社区