好文丨数据挖掘界领军人物谢邦昌:深度剖析Data Mining

有问题直接微信我吧!

大家好,PPV课大数据微信开通了人工客服,大家有问题可以在工作时间:9:00-18:00直接通过微信与客服联系!

谢邦昌

深度剖析Data Mining

谢邦昌教授,是台北医学大学医务管理学系研究所暨大数据研究中心及管理学院主任,也是数据挖掘界领军人物及世界知名统计学家,他对数据挖掘的定义是:Data Mining是从巨大数据仓储中找出有用信息的一种过程与技术。

1、Data Mining主要功能

  Data Mining实际应用功能可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于推算预测类;Association和Sequence则属于序列规则类。

  Classification是根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会被分类为几个少数的离散数值,例如将一组数据分为 "可能会响应" 或是 "可能不会响应" 两类)。

  Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。

  这些我们用来寻找特征的已分类数据可能是来自我们的现有的客户数据,或是将一个完整数据库做部份取样,再经由实际的运作来测试;譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model,再利用这个Model来对数据库的其它数据或是新的数据作分类预测。

  Clustering用在将数据分群,其目的在于将群间的差异找出来,同时也将群内成员的相似性找出来。Clustering与Classification不同的是,在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。

  Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量,特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具,推估预测的模式已不在止于传统线性的局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。

  Time-Series Forecasting与Regression功能类似,只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性,譬如时间的周期性、阶层性、季节性以及其它的一些特别因素(如过去与未来的关连性)。

  Association是要找出在某一事件或是数据中会同时出现的东西。举例而言,如果A是某一事件的一种选择,则B也出现在该事件中的机率有多少。(例如:如果顾客买了火腿和柳橙汁,那么这个顾客同时也会买牛奶的机率是85%。)

  Sequence Discovery与Association关系很密切,所不同的是Sequence Discovery中事件的相关是以时间因素来作区隔(例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是 68%) 。

2、目前业界最常用的Data Mining分析工具

  Data Mining工具市场大致可分为三类:

  (1) 一般分析目的用的软件包:

  SAS Enterprise Miner

  Microsoft SQL Server 2005 – 2008

  IBM Intelligent Miner

  Unica PRW

  SPSS Clementine

  SGI MineSet

  Oracle Darwin

  Angoss KnowledgeSeeker

  Statistica

  (2) 针对特定功能或产业而研发的软件:

  KD1(针对零售业)

  Options & Choices(针对保险业)

  HNC(针对信用卡诈欺或呆帐侦测)

  Unica Model 1(针对营销业)

  (3)整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析系统:

  Cognos Scenario and Business Objects

3、对于刚刚接触Data Mining的人来说,怎样把它学好?

  先从问题着手,Domain Knowledge 是很重要的具体应重视三方面的问题:

  (1)强调需求,重视过程和结果。虽然统计学和数据挖掘一样,都是在寻求实际数据解决方案的过程中成长起来的,然而统计学家更关注模型,运用数据仅仅是为了发现新的模型,而数据挖掘则更强调知识的价值,模型是用来发现知识的工具。强调需求,重视过程和结果才能实现统计创新。

  (2)借鉴机器学习的特点,提炼方法,以算法的形式体现方法。统计学早已脱离正态的传统框架发展方法。但是,由于统计最新的可以被直接使用的成果太少,不仅阻碍了人们对统计方法的运用,甚至造成对先进统计方法的不甚了解。数据挖掘的兴起,为统计学与信息技术的结合带来了发展的契机。计算机技术将成为继数学之后,又一推动统计学发展的强大工具。

  (3)发挥统计软件的优势。许多“傻瓜”统计软件的设计,更适合统计学家研究使用,任何一个初通统计的数据分析员要想通过软件来进行数据分析,都极有可能由于对数据涵义的不求甚解,导致脱离实际的统计模型的滥用,数据挖掘软件也是如此;Clementine、SQL Server 2005及SAS和S-plus被设计为可以通过编程来调节软件的默认属性,用这样的软件工作可以增强统计研究者的算法意识;最后,统计软件为统计研究的目的,在图形和可视化方面的互动操作,应该在数据挖掘的软件中体现这一思想,因为它可以帮助数据分析员理解高维数据复杂的结构。

  从数据挖掘在国际上的发展来看,数据挖掘的研究重点已从提出概念和发现方法,转向系统应用和方法创新上,研究注重多种发现策略和技术的集成,以及多种学科之间的相互渗透,数据挖掘技术迫切需要系统、科学的理论体系作为其发展的有力支撑。

  最近,由经验统计方法和人工智能相结合而产生的衍生技术,如分类回归树(Classification And Regression Tree, 简称CART),卡方自动交互探测法(Chi-square Automatic Interaction Detector,简称CHAID)等前沿方法,以算法的形式展示了统计和信息技术结合发展的新方向。这些都预示着数据挖掘技术与统计学的集成已成为必然的趋势。

  我们坚信,随着统计学与现代信息技术的融合,在方法上不断进行新的探索,一定会为统计学和数据挖掘未来的发展开辟一片新的天地。

4、Web Mining 和Data Mining的区别

  如果将Web视为CRM的一个新的Channel,则Web Mining便可单纯看做Data Mining应用在网络数据的泛称。

  该如何测量一个网站是否成功?哪些内容、优惠、广告是人气最旺的?主要访客是哪些人?什么原因吸引他们前来?如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素?以上种种皆属Web Mining 分析之范畴。

  Web Mining 不仅只限于一般较为人所知的log file分析,除了计算网页浏览率以及访客人次外,举凡网络上的零售、财务服务、通讯服务、政府机关、医疗咨询、远距教学等等,只要由网络连结出的数据库够大够完整,所有Off-Line可进行的分析,Web Mining都可以做,甚或更可整合Off-Line及On-Line的数据库,实施更大规模的模型预测与推估,毕竟凭借因特网的便利性与渗透力再配合网络行为的可追踪性与高互动特质,一对一营销的理念是最有机会在网络世界里完全落实的。

整体而言,Web Mining具有以下特性:

  1.资料收集容易且不引人注意,所谓凡走过必留下痕迹,当访客进入网站后的一切浏览行为与历程都是可以立即被纪录的;

  2.以交互式个人化服务为终极目标,除了因应不同访客呈现专属设计的网页之外,不同的访客也会有不同的服务;

  3.可整合外部来源数据让分析功能发挥地更深更广,除了log file、cookies、会员填表数据、在线调查数据、在线交易数据等由网络直接取得的资源外,结合实体世界累积时间更久、范围更广的资源,将使分析的结果更准确也更深入。

  利用Data Mining技术建立更深入的访客数据剖析,并赖以架构精准的预测模式,以期呈现真正智能型个人化的网络服务,是Web Mining努力的方向。

  5Data Warehousing(资料仓储) 和Data Mining 之间的关系若将Data Warehousing比喻作矿坑,Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待Data Mining能挖掘出什么有意义的信息的。

  要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集资料的工具。「数据仓储」,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design Support System)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据仓储的目标是在组织中,在正确的时间,将正确的数据交给正确的人。

  许多人对于Data Warehousing和Data Mining时常混淆,不知如何分辨。其实,数据仓储是数据库技术的一个新主题,在数据科技日渐普及下,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。数据仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指从在线交易系统OLTP(On-Line Transactional Processing)所得来的数据。

  将这些整合过的数据置放于数据仓储中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓储最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓储的重点。综上所述,数据仓储应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。

  从数据仓储挖掘出对决策有用的信息与知识,是建立数据仓储与使用Data Mining的最大目的,两者的本质与过程是两码子事。

  换句话说,数据仓储应先行建立完成,Data Mining才能有效率的进行,因为数据仓储本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为「 Data Mining是从巨大数据仓储中找出有用信息的一种过程与技术」。

投稿须知

①稿件可以是原创文章、原创翻译文章等等,优秀的原创文章可以申请PPV课博客专栏,获得相应稿酬。

②凡是投稿的学员均可获得PPV课社区积分奖励3000积分,用于下载其他资料。

③欢迎大家积极投稿,投稿请联系PPV课编辑 lily QQ:2941275750

大家好,PPV课大数据微信开通了人工客服,大家有问题可以在工作时间:9:00-18:00直接通过微信与客服联系!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-09-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

用照片也能追踪手机?人脸识别迎来“终结者”

就像世界上没有两片相同的雪花,你用手机拍摄的每张照片也是独一无二的。布法罗大学的研究人员掌握了一种方法,可以通过分析照片来追踪拍摄的手机,这项研究为身份验证提供...

28950
来自专栏达观数据

漆桂林 | 知识图谱的应用

本文首发于知乎专栏知识图谱和智能问答 作者简介 漆桂林:东南大学计算机系教授,发表高质量学术论文40多篇。特别是在国际人工智能顶级会议IJCAI, AAAI和K...

70070
来自专栏机器人网

4个步骤教你全面了解工业机器人基础知识

一篇文章4个表格教你看懂工业机器人基础知识,一个视频让你不再是机器人小白。看完本文,系统了解工业机器人! 机器人的分类 关于机器人如何分类,国际上没有制定统一...

28340
来自专栏UML

什么是组织结构图 / What is Organization Chart?

组织结构图显示组织或公司的内部结构。员工和职位由框或其他形状表示,有时包括照片,联系信息,电子邮件和页面链接,图标和插图。直线或肘线将水平线连接在一起。使用我们...

18560
来自专栏牛客网

cvte春招一面二面终面面经(已通过终面)

本人背景:渣渣二本,渣渣acmer 应聘的是windows应用开发,应届生 今天晚上hr打电话跟我说:面试通过,邀请我参加现场签约,可惜31号有比赛就没办法去了...

415110
来自专栏新智元

全球十五年脑神经研究并未作废,人工智能大国竞争继续

【新智元导读】日前有媒体报道,一篇PNAS论文的发现让“15年的脑神经科学研究作废”。脑科学正是大国竞争之地,相关研究也与人工智能发展联系紧密,该结果真的具有这...

43660
来自专栏顾宇的研习笔记

不要被“学会”的假象迷惑

很多喜欢读书的人,喜欢买书。我认识了很多人,都有很多的书,很多人会舍不得扔掉它们。因为总觉得有什么没读懂。

10510
来自专栏AI科技大本营的专栏

小米刚出的刷脸手机Note 3,刷的是便捷还是危险?

今天,也就是 2017 年 9 月 11 日,小米发布了两款手机产品 Note 3 和 MIX 2, 其中,Note 3推出了一项新功能,人脸解锁。 以后,请忘...

31240
来自专栏Data Analysis & Viz

知乎上8个100K+高赞回答(筛选自63万个回答)

最近知乎首页上老是看到这个话题:《知乎上的高票答案就是好的吗?》,很好奇目前高赞回答都有哪些?各有多少赞同数?于是继续这些天爬知乎数据的节奏,以大小V主页的回答...

13230
来自专栏数据派THU

送你10本机器学习和数据科学必读书(附PDF下载)

本文共1800字,建议阅读6分钟。 让一系列免费的机器学习与数据科学书籍开启你的夏日学习之旅吧!

52640

扫码关注云+社区

领取腾讯云代金券