沈浩老师:谈谈数据挖掘技术

我在写市场研究中的多变量分析时,总是有同学问我关于数据挖掘的相关问题,我在写博客文章的时候也说要详细说说数据挖掘;什么是数据挖掘呢?如果有人问我,沈老师什么是数据挖挖掘,这个人与我的领域不相关的话,我一定会说,数据挖掘就是挖恐怖分子,只要拉登敢打电话,美国一定会从海量的通话记录中把这个电话抽出来,卫星立刻跟踪,导弹直接就下来了,这就叫精确打击!数据挖掘就是精确打击,只是拉登不会傻到直接在电话中说我是拉登,我要911,他一定说的是我们事先不知道的密语。

哪如何能够挖掘出这些密语呢?答案就是关系,规则侦测,转到商业领域就是发现商业规则,就是商业营销领域的精确制导,精确打击。只不过企业不会像抓拉登那样付出大的代价,但是企业完全可以依照抓拉登的方式精确打击每一个消费者!当然,前提要有数据信息,这个层面的数据挖掘已经到了操作型数据挖掘了,其实,我们经常讲到的数据挖掘是分析型数据挖掘!

  • 数据挖掘:就是从海量的数据中采用自动或半自动的建模算法,寻找隐藏在数据中的信息,如趋势(Trend)、模式(Pattern)及相关性(Relationship),是从数据库中发现知识的过程,运用电脑存储数据和数据库技术以及使用统计分析方法工具。

我开始接触到数据挖掘是在2000年左右,当时在常规的市场研究中,企业提到内部存在大量数据库,主要是电信行业的朋友问我对数据库的分析问题。这引起我基于数据库的内部数据分析的兴趣,好在当时对数据库还算了解,查找资料接触到了数据挖掘概念。恰逢当时市场研究协会秘书长期望有此兴趣的朋友一起聊聊数据挖掘,那时我们就筹划一个数据挖掘沙龙,任命俺当个组长,(俺没当过领导,好容易当了次领导一定以身作则啦)组织大家!记得沙龙就在我们中国传媒大学我们调查统计研究所开的(那时还叫北京广播学院),参加沙龙的主要是新浪、联想、IBM、SPSS、SAS还有一些市场研究公司的技术总监和老总,大家都比较忙,没有时间准备交流的内容,俺当了领导只好第一讲我来了,之前我为此准备并做了大量的功课,从互联网上收集了能收集到了数据挖掘资料,并精心准备PPT和翻译中文表述;隔了一个月,第二次沙龙开的时候,大家又没人准备,只好我接着来,第二次我直接就用英文PPT了,也没时间翻译。虽然两次沙龙交流主要是吃饭,但我想两次我的主角讲座可能没让参加沙龙的人学到什么,反而自己变得对数据挖掘有更深刻,或者说更系统的理解了。这也算是最大的当领导的收获了。后来我就对学生讲:专家都是逼出来的,人家都说你是专家,为了背负这个美名,你只有好好学习才行!所以我也常说:好孩子是表扬出来的。 还有两个心得:

  • 正好之前,在祝建华老师的香港城市大学访问,知道了收集资料的重要,学会了搜集资料,所以一定要有搜索信息和Google的能力!
  • 一个知识学会了,只代表会了30%,如果能够讲给别人听,并让人听懂才说明你会了70%;所以讲课是一个非常好的学习过程!

数据挖掘沙龙两次之后,大家就比较踊跃了,记得当时SAS的刘勇,SPSS的苏立民都分别讲了Enterprise Miner,和Clementine,这两个数据挖掘工具我之前都接触过,当时对EM更熟悉些。但是在介绍Clementine软件的关联分析时,演示了购物篮分析概念!

看到这个图和分析,我立刻联系到我在祝建华老师哪里研究的信息传播模式用的Ucinet软件,社会网络分析不正好是这个分析吗!这之后我就把网络分析立刻用在了市场研究领域,收获很大,因为这是我第一次从“关系”的角度看待数据,并进行分析!

在看到这种分析方法的优势后,甚至在什么分析上都想用关联分析,比如,在一次广电总局人才调研中,我设计了人才画像的研究方法,因为大家都无法给出明确的什么是“复合型人才”的定义,但采用画像后意义就输出了!

当从关系的角度重新理解数据挖掘的时候,我看到了数据挖掘完全不同于传统多变量分析或者说统计分析的思路。当然,数据挖掘不仅仅是关联分析,还有更多的建模技术! 所以数据挖掘的基本特点是:

  • 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
  • 数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。
  • 先前未知的信息是指该信息是预先未曾预料到的。
  • 数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识。
  • 挖掘出的信息越是出乎意料,就可能越有价值.

人们最经常讲数据挖掘的啤酒和尿布的故事! 其实数据挖掘就是“学习过去经验”的简单过程;应该成为每个成功企业的常规体系;数据挖掘只是帮助企业做得更快捷、更准确和更具系统性!

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-10-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据科学家】数据科学家的4种数据科学工作,8项求职技能

“数据科学家”被誉为21世纪最性感的工作(Thomas Davenport和D.J. Patil在哈佛商业评论上曾发表的一篇文章中称),但如何成为一个数据科学家...

2189
来自专栏AI科技大本营的专栏

AI 行业实践精选:2017年聊天机器人的现状(一)——机会

【AI100 导读】2016年,聊天机器人异常火爆,也引起了各大行业的广泛关注,然而效果并不是很好。那么,2017年聊天机器人该走向何方?聊天机器人当前技术形势...

3164
来自专栏企鹅号快讯

人工智能的认知层面大家都在关注什么?

从AI的认知层来看“自然语言处理、语义网与知识图谱”算是关键技术。我们按照这些关键词提取36Kr、品玩与虎嗅的相关新闻共计803篇,构建新闻相似度网络,进行聚类...

2300
来自专栏AI科技评论

苹果若真想让Siri实现逆袭,至少会在WWDC上宣布这些功能

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

3239
来自专栏EAWorld

航空业大数据治理:规划企业数据架构的两种模式和三个关键技术

目录: 一、航空业数据治理现状 二、航空业大数据治理的三个发展趋势 三、规划企业数据架构的两种模式 四、规划企业数据架构的三个关键技术 五、总结 一、航空业数据...

5258
来自专栏PPV课数据科学社区

为你还原一个纯粹地道的「数据分析岗」

导读:只要是在科技创新领域的公司,纷纷都挂出来了急招“数据分析师”的牌子。但是很多人对它的概念并不了解,本文为你一一道来数据分析岗的功能目的,以及组建方式,干货...

2575
来自专栏CDA数据分析师

为你还原一个纯粹地道的「数据分析岗」

导读:只要是在科技创新领域的公司,纷纷都挂出来了急招“数据分析师”的牌子。但是很多人对它的概念并不了解,本文为你一一道来数据分析岗的功能目的,以及组建方式,干货...

23610
来自专栏CDA数据分析师

细数数据科学团队中的十大关键角色

应用数据科学是一项高度跨学科的团队工作,需要用多样性的角度看问题。事实上,比起专业知识和经验,观点和态度的重要性也不容小觑。以下是我对数据科学团队构成的看法。

692
来自专栏CDA数据分析师

90天「高效学习」之后,分享下我的数据分析学习经验

许多刚刚接触数据分析的人或者转行想从事业务类数据分析的人来说如何学习才能学以致用,是一个尤为重要的问题,结合我的亲身经历讲一讲我的一些总结及看法: 对于想从事业...

2207
来自专栏CDA数据分析师

解读 | 数据分析的发展和演变经过哪几个阶段

近年来,我们在信息技术领域取得了巨大进步,在技术生态领域中取得的一系列革命性成果也确实值得称赞。在过去的十年到二十年里,数据和分析一直是非常热门的词汇。因此我们...

943

扫码关注云+社区