沈浩老师谈如何学好数据挖掘

【编者注】一位热爱传媒、热爱大数据、热爱摄影的老师,沈浩老师(微博@沈浩老师 )以问答的方式给你阐述如何学习、如何学习好数据挖掘。

下面是一位朋友的问题,其实每天都有不少同学和朋友向我提问各种学习数据分析、数据挖掘、统计分析等方面的问题,有时候真的很难仔细回答。其实,每个人都有自己的学习路径,还有自己的知识结构和期望的职业生涯,要得到一个统一的答案是困难的!

什么是解决问题:就是在明确实际情况和期望情况之间的差异后,为消除这种差异所采取的行动!在解决具体问题时,要先明确分类问题、差异问题,最后我们才能谈论共性!

我期望解答这个朋友问题可能具有共性,放在博客中,一些见解仅供大家参考:

沈浩老师:

您好!不知道您还记得我不,我是电信的一名新入职员工,在过年前给您写过一封E-mail.我期望自己能够在企业内从事跟数据挖掘的工作,期望通过数据挖掘这个工具来挖掘用户深层次的需求和研究用户的使用习惯及消费特点。

我在网上查阅过一些从事数据挖掘的专家的博客,有人提到如果在企业内从事数据挖掘方面的应用工作,需要掌握相关的数理统计知识,懂得使用相关软件就可以了,请问是这样的吗?还需要掌握数据仓库和程序算法方面的知识吗?因为我从本科到研究生都是学习管理方向的,数学方面的基础相对薄弱,因此想请您指教一下。

另外,如果我要入门,从哪个方面入手比较好呢?有什么合适的参考书吗?请你不吝赐教。

想必您平时的工作很忙,因此对这么唐突的给您写邮件请教而占用您的时间和精力表示歉意。期待您的回复!祝您工作顺利,身体健康!沈浩的回答:

抱歉,事情太多,如果不追着就忘了!我认为你作为企业员工对数据挖掘感兴趣,最主要的就是从应用和解决问题开始,所以我想把数据挖掘这个狭义定义的内容改成你应该对数据分析感兴趣,数据挖掘只是数据分析的一个重要工具和解决方法之一!

数量统计知识方面:我认为统计思想是数学在实践中最重要的体现,但对于实际工作者最重要的是掌握统计思想,其实统计理论非常复杂,但实际应用往往是比较简单的!比如,很多人都在大学学了假设检验,但实际应用中假设就是看P值是否小于0.05,但是H0是什么?拒绝还是接受的是什么现实问题;要理解!

掌握软件问题:从软件角度学,是非常好的思路,我基本上就是这样学的。我常说编软件的人最懂理论,否则编不出来,编软件的人最知道应用,否则软件买不出去;现在软件越来越友好,把软件自带案例做一遍,你会自觉不自觉的掌握软件解决问题的思路和能解决的问题类型;

数据仓库问题:OLAP和数据挖掘是数据仓库建立基础上的两个增值应用,从企业整体角度,数据挖掘应该建立在企业数据仓库完备的基础上。所以说数据仓库是针对企业级数据挖掘应用提出的,但我们应该记住,企业从来不是为了数据挖掘建立数据仓库,而是因为有了数据仓库后必然会提出数据挖掘的需求!现在随着数据挖掘软件的工具智能化,以及数据仓库和ETL工具的接口友好,对数据库层面的要求越来越少;

数学不好可能反应了一个人思考问题的方式或深入理解问题的能力,但数学不是工具是脑具,不断解决问题的过程可以让我们思考问题更数学化!

沈浩老师建议:

不急,一步一步来!先把本职工作中的数据分析问题理解了,干好了!

熟练玩好Excel软件工具,这个可以看《Excel高级应用与数据分析》我写的书,当然有很多Excel论坛和网站,从我的博客就可以连接到。

学习好统计分析方法,我不是单指统计原理,而是统计分析方法,比如回归分析,因子分析等,不断进入统计分析解决问题的思考方式;这个可以看看SPSS软件方面的书和数据案例,通过软件学习解决数据分析的统计问题,这方面的书很多,当然你也可以关注我的博客,不断增加统计分析方法解决数据分析问题的思路,自己对照着完成!

在上述问题有了比较好的理解后,也就是你应该算是一个数据分析能手的时候,开始进入数据挖掘领域,你会发现用数据挖掘思想解决问题具有智能化、自动化的优势,接下来,你需要考虑数据建模的过程,通过学习Clementine软件或SAS的挖掘工具,不断理解数据挖掘与原来的数据分析工具有什么不同或优势!

当前面都是了解并且能够得心应手后,你就要有针对性的掌握你工作所在行业的问题,例如:电信行业的解决方案问题:客户流失、客户价值、客户离网、客户保持、客户响应、客户交叉销售等商业模型,同时与数据分析和数据挖掘统一在一起的解决方案!

接下来,你应该掌握数据库的一些原理和操作,特别是SQL语言的方式

你到了这个阶段,就应该有全面解决问题的能力,比如挖掘出来的知识或商业规则如何推送到营销平台上等等

梳理自己的知识结构,不仅会操作,现在你应该成为专家了,要能够宣扬你的知识能力和领导力,当然也要表明你在数据挖掘领域的专业特长

要经常帮助同事和行业朋友,比如帮助解决数据分析问题,帮助咨询,甚至给大家讲课,这对你的知识梳理和能力的提高非常重要,你的自信心会更强!

有兴趣,可以建立一个博客或什么,不断写点东西,经常思考和总结

结交广泛的朋友!

关于入门的教材:

互联网,其实不用买什么书网络基本都有;要有好的搜索能力,当然包括搜各种软件!

SPSS和Clementine软件的说明和案例,都做一遍;

《数据挖掘——客户关系管理的艺术》不错,当当网上查一下

《调查研究中的统计分析法》——我和柯老师写的,当当网也有

《Excel高级应用与数据分析》——我写的

《数据展现的艺术》——我和博易智讯合作

原文链接:http://www.itongji.cn/article/0H91952011.html

来源:数盟

原文发布于微信公众号 - 数据的力量(shujudeliliang)

原文发表时间:2015-01-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

为何机器学习的黄金时代才刚刚来临

1042
来自专栏机器之心

专访Michael Jordan:AI的分布式决策与不确定性

今年四月,Michael Jordan 在 Medium 上发表了一篇名为《人工智能:革命尚未到来》的文章。文章指出,如今「AI」这个概念被各界人士当做包治百病...

562
来自专栏AI科技评论

腾讯AI Lab刘霁谈机器学习,异步计算和去中心化是两大杀器

AI 科技评论按:并行计算是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部...

3155
来自专栏工科狗和生物喵

【我读《Big Data》】大数据时代的思维变革

正文之前 大数据是个很玄乎的东西,如果体系成熟,那么基本会波及到生活中的方方面面。只要能够获取数据,那么其他的过程基本只要算法模型得当,成本相当之低,但是如果能...

3596
来自专栏新智元

【视频】让围棋AI自己落子,DexNet机械臂深度学习抓取各种形状物体

【新智元导读】战无不胜的 AlphaGo 离不开它的“机械臂”黄博士。如果让 AlphaGo 自己落子,人类胜算想必能提高不少。抓取形状不规则的物品对机器人来说...

3537
来自专栏大数据挖掘DT机器学习

为何机器学习的黄金时代才刚刚来临

虽然已被关于神经网络、人工智能和机器学习的热烈讨论所包围,但很多人都知道,这些方法根本没有什么新颖的东西。让人疑惑的是,这些算法和方法早在几十年前就已经存在了...

3236
来自专栏AI科技大本营的专栏

一份为高中生准备的机器学习与人工智能入门指南

翻译 | AI科技大本营 参与 | 林椿眄 作为一名高中生,我在过去的一年里自学了机器学习与人工智能的相关课程,在这里和大家分享下我自己的学习心得,希望能够对那...

3586
来自专栏腾讯大讲堂的专栏

微信表情的建立和运营之路

[核心提示] 微信表情经历了怎样的产品演变?表情商店推出的逻辑是什么?围绕微信表情有哪些有意思的数据呢? 微信表情发展史 可能大多数会觉得微信表情是近一年才推...

18210
来自专栏AI科技评论

李飞飞北京演讲:AI会改变世界,改变AI的又会是谁?

AI科技评论按:2017年1月15日,李飞飞教授出席未来论坛2017年会暨首届未来科学颁奖典礼,发表名为《视觉智能的探索》 (The Quest for ...

3006
来自专栏专知

【下载】 TensorFlow:实战Google深度学习框架

【导读】“深度学习”这个词在过去的一年之中已经轰炸了媒体、技术博客甚至到朋友圈。这也许正是你会读到本书的原因之一。数十年来,人工智能技术虽不断发展,但像深度学习...

55814

扫码关注云+社区