沈浩老师:谈谈数据挖掘技术

我在写市场研究中的多变量分析时,总是有同学问我关于数据挖掘的相关问题,我在写博客文章的时候也说要详细说说数据挖掘;什么是数据挖掘呢?如果有人问我,沈老师什么是数据挖挖掘,这个人与我的领域不相关的话,我一定会说,数据挖掘就是挖恐怖分子,只要拉登敢打电话,美国一定会从海量的通话记录中把这个电话抽出来,卫星立刻跟踪,导弹直接就下来了,这就叫精确打击!数据挖掘就是精确打击,只是拉登不会傻到直接在电话中说我是拉登,我要911,他一定说的是我们事先不知道的密语。

哪如何能够挖掘出这些密语呢?答案就是关系,规则侦测,转到商业领域就是发现商业规则,就是商业营销领域的精确制导,精确打击。只不过企业不会像抓拉登那样付出大的代价,但是企业完全可以依照抓拉登的方式精确打击每一个消费者!当然,前提要有数据信息,这个层面的数据挖掘已经到了操作型数据挖掘了,其实,我们经常讲到的数据挖掘是分析型数据挖掘!

  • 数据挖掘:就是从海量的数据中采用自动或半自动的建模算法,寻找隐藏在数据中的信息,如趋势(Trend)、模式(Pattern)及相关性(Relationship),是从数据库中发现知识的过程,运用电脑存储数据和数据库技术以及使用统计分析方法工具。

我开始接触到数据挖掘是在2000年左右,当时在常规的市场研究中,企业提到内部存在大量数据库,主要是电信行业的朋友问我对数据库的分析问题。这引起我基于数据库的内部数据分析的兴趣,好在当时对数据库还算了解,查找资料接触到了数据挖掘概念。恰逢当时市场研究协会秘书长期望有此兴趣的朋友一起聊聊数据挖掘,那时我们就筹划一个数据挖掘沙龙,任命俺当个组长,(俺没当过领导,好容易当了次领导一定以身作则啦)组织大家!记得沙龙就在我们中国传媒大学我们调查统计研究所开的(那时还叫北京广播学院),参加沙龙的主要是新浪、联想、IBM、SPSS、SAS还有一些市场研究公司的技术总监和老总,大家都比较忙,没有时间准备交流的内容,俺当了领导只好第一讲我来了,之前我为此准备并做了大量的功课,从互联网上收集了能收集到了数据挖掘资料,并精心准备PPT和翻译中文表述;隔了一个月,第二次沙龙开的时候,大家又没人准备,只好我接着来,第二次我直接就用英文PPT了,也没时间翻译。虽然两次沙龙交流主要是吃饭,但我想两次我的主角讲座可能没让参加沙龙的人学到什么,反而自己变得对数据挖掘有更深刻,或者说更系统的理解了。这也算是最大的当领导的收获了。后来我就对学生讲:专家都是逼出来的,人家都说你是专家,为了背负这个美名,你只有好好学习才行!所以我也常说:好孩子是表扬出来的。 还有两个心得:

  • 正好之前,在祝建华老师的香港城市大学访问,知道了收集资料的重要,学会了搜集资料,所以一定要有搜索信息和Google的能力!
  • 一个知识学会了,只代表会了30%,如果能够讲给别人听,并让人听懂才说明你会了70%;所以讲课是一个非常好的学习过程!

数据挖掘沙龙两次之后,大家就比较踊跃了,记得当时SAS的刘勇,SPSS的苏立民都分别讲了Enterprise Miner,和Clementine,这两个数据挖掘工具我之前都接触过,当时对EM更熟悉些。但是在介绍Clementine软件的关联分析时,演示了购物篮分析概念!

看到这个图和分析,我立刻联系到我在祝建华老师哪里研究的信息传播模式用的Ucinet软件,社会网络分析不正好是这个分析吗!这之后我就把网络分析立刻用在了市场研究领域,收获很大,因为这是我第一次从“关系”的角度看待数据,并进行分析!

在看到这种分析方法的优势后,甚至在什么分析上都想用关联分析,比如,在一次广电总局人才调研中,我设计了人才画像的研究方法,因为大家都无法给出明确的什么是“复合型人才”的定义,但采用画像后意义就输出了!

当从关系的角度重新理解数据挖掘的时候,我看到了数据挖掘完全不同于传统多变量分析或者说统计分析的思路。当然,数据挖掘不仅仅是关联分析,还有更多的建模技术! 所以数据挖掘的基本特点是:

  • 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
  • 数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。
  • 先前未知的信息是指该信息是预先未曾预料到的。
  • 数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识。
  • 挖掘出的信息越是出乎意料,就可能越有价值.

人们最经常讲数据挖掘的啤酒和尿布的故事! 其实数据挖掘就是“学习过去经验”的简单过程;应该成为每个成功企业的常规体系;数据挖掘只是帮助企业做得更快捷、更准确和更具系统性!

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-10-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

将被自然语言处理和文字分析颠覆的行业:法律,保险和客服

1814
来自专栏大数据文摘

沈浩:新媒体时代,数据新闻需要什么样的人才?

2426
来自专栏DT数据侠

电商为什么知道你想买啥?

一直以来都被高度曝光的人工智能领域相关应用,总是引来巨大关注。在电商搜索领域,人工智能发挥着怎样的作用?

740
来自专栏CDA数据分析师

数据科学职业生涯路径:如何在数据分析工作中找准自己的角色和定位?

? 写在前面 全世界,企业每天都在创造更多的数据,迄今为止大多数都在努力从中受益。根据麦肯锡的说法,仅美国就将面临150,000多名数据分析师的短缺另加150...

3568
来自专栏量子位

详解:知乎如何使用机器学习,未来还有哪些想象空间

舒石 假装发自 斯坦福 量子位 报道 | 公众号 QbitAI 机器学习,正在以及将要如何改变知乎? 回答这个问题的最佳人选,莫过于知乎合伙人、大数据团队负责人...

33011
来自专栏专知

自动驾驶的“大脑”-控制工程篇(二)

点击上方“专知”关注获取专业AI知识! 自动驾驶的“大脑”——控制工程篇(二) 中国人工智能系列白皮书 -智能驾驶2017 中国人工智能系列白皮书 --智能交通...

3907
来自专栏钱塘大数据

高质量数据集哪里来?机器学习公司的十大数据搜集策略

长期以来,在机器学习中不合理的数据利用效率一直是引起广泛讨论的话题。也有人认为,曾经阻碍人工智能领域取得各种重大突破的,并不是什么高深的算法,而是缺乏高质量的数...

35910
来自专栏EAWorld

基于人工智能场景的移动平台工程化实践

持续关注我们公众号的人可能会留心到我们在移动平台和人工智能的结合上进行过多方面的尝试,也发布过两篇专题文章。分别是《智能化的Conversational UI是...

741
来自专栏钱塘大数据

用数据讲故事:七种不同的数据展示方法

? 什么使一个故事真正成为数据驱动呢?在某种程度上,数字不再仅仅是出现在侧栏的表格,而是能够在真正意义上促进故事的发展。 数据可以帮助我们用不同视角叙述不同类...

2819
来自专栏大数据挖掘DT机器学习

研究生:数据分析/挖掘工作的疑惑?

数据分析/挖掘工作的疑惑 本人在读硕士一名,研二,理工科,所作工作于这两方面无关。但是,最近对这个方向特别感兴趣,真的很想从事这方面的工作。目前,正在自学中,以...

3485

扫码关注云+社区