数据挖掘那些事

当我们在谈数据挖掘时,其实在讨论什么

统计学、数据挖掘与机器学习是近年来经常一起出现的3个词语,尤其是数据挖掘与机器学习。有些人认为数据挖掘涵盖了机器学习,有些人认为机器学习应该包含数据挖掘,各种说法莫衷一是。实际上,由于近年来信息科学的高速发展,这些概念虽然有了一定的定义和解释,但是边界都相对模糊。如果从业务场景、算法应用的角度理解、学习他们,可以归类为数据科学——一门从数据中提炼知识及洞察趋势的科学。

文/黄成甲

将这种科学应用到生活中就是各种指数。例如:裙边理论:女性的裙子长度可以反映经济的兴衰,裙子越短,经济发展情况越好,裙子越长,经济发展情况越艰险。另外,还有德国啤酒指数:每当气温上升1度,啤酒销量就平均增加230万瓶,这就是“德国啤酒指数”;空调指数:在日本夏季,温度每上升1度,空调的销量就平均增加30万台。

这些行业指数都是统计学在某一方面的应用。当然,现在的统计学已经大大超出了行业指数研究的范畴。例如IBM在医疗领域利用Watson技术解决了包括糖尿病、白内障、肿瘤等难题。但是,无论是在过去、现在还是未来,人们总是希望能够借助观察事物(获取数据),通过合适的手段(建立统计挖掘模型)来量化这些关系。例如,借助一个人的身高来预测他的体重,

身高预测模型

上图是一个统计挖掘模型的基本形式。简单来说,统计挖掘模型是指利用一个或多个输入变量(一般也被称为自变量)通过拟合适当的关系式来预测目标变量(也被称为因变量)的方法。其中,f(x)是我们探求的关系式,但是其一般是固定并且未知的。尽管f(x)未知,但是我们的目标是利用一系列的统计/挖掘方法来尽可能求出接近f(x)的模型,这种模型可以是一个简单的线性回归模型y=ax+b,也可能是一个曲线模型y=a+bx²,当然也有可能是一个神经网络模型或者一个决策树模型。

这些模型从预测任务的角度看,估计出f(x)的形式并不意味着任务结束,在实际的商业实践中,可以将数据挖掘任务简单分为预测任务与控制任务。

(1)预测任务:我们关心的是目标变量Y的预测。预测模型f(x)的形式有可能是一个黑箱模型(即对于模型本身,我们不能很好解释或者并不清楚其内部结构,而是更加关心模型的输入和输出),只要能够提高预测精度,我们就认为达到目的了。一般,神经网络模型属于典型的黑箱模型。例如:Google X实验室开发出具有自主学习能力的神经网络模型,它能够从1000万张图片中找出那些有小猫的照片,其中,这1000万张图片就是输入,对于这些图片的识别就是输出。

(2)控制任务:在控制任务中,我们希望能够尽可能地描述清楚X与Y的关系。例如在金融行业,要通过客户的个人信用信息来评价个人的信用风险,这就要求模型不但能够回答这个客户的信用风险是高还是低,还要能回答哪些因素直接影响客户的信用风险,每个因素的影响程度有多大。

进一步的,从预测场景的角度看,又可以把统计挖掘划分为两种类型:有监督的学习与无监督学习。

学习类型

有监督的学习即对每一组自变量X都有一个因变量Y一一对应,通过拟合预测模型,可以更好的理解输入变量与目标变量之间的关系,例如,分析客户的个人信用信息来评价其信用风险,分析企业营销费用投入与销量的关系等。对于有监督学习,如果目标变量属于定量变量(即连续型变量,例如GDP、企业年销售额),那么可以把它定义为回归问题;如果目标变量属于定性变量(即分类型变量,例如违约客户与不违约客户),那么将其定义为分类问题。

而对于无监督学习,则只有自变量X,而没有明确的Y。例如,对于零售企业中每个会员的行为信息,通过无监督学习的方法(聚类)可以把会员划分为不同的客户细分群体,如粉丝客户群、性价比客户群等。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

深度学习辅助北京大学第一医院读片,前列腺癌诊断准确率超过90%

【新智元导读】北京大学第一医院前列腺癌MR资料库训练的智能辅助诊断系统,运用了人工神经网络的技术,从 MR 图像数据中挖掘出有用信息,让计算机可以从中“学到”肿...

3655
来自专栏专知

干货|36页最新深度学习综述论文:算法、技术、应用,181篇参考文献

【导读】最近一期的计算机顶级期刊ACM Computing Surveys (CSUR)出版,包含了来自佛罗里达国际大学的研究人员发布的一篇深度学习综述论文《A...

3392
来自专栏量化投资与机器学习

【精选】神经网络应用于算法交易

今天编辑部带来关于在基于金融时间序列的预测模型案例,我们将通过神经网络来增强一个经典的移动平均策略,并表明它真的是有所改善相对原策略。

30512
来自专栏数据科学与人工智能

机器学习两次浪潮|机器学习

第一次浪潮:浅层学习 20世纪80年代末期,用于人工神经网络的反向传播算法(也叫Back Propagation算法或者BP算法)的发明,给机器...

2846
来自专栏AI科技评论

学界 | Ian Goodfellow和Papernot半年三篇博文,对机器学习的安全隐私来了个大起底

AI 科技评论按:随着人工智能研究的不断发展,由机器学习模型在背后提供支持的功能越来越多地开始商业化,最终用户的生活里机器学习能造成的影响也越来越大。这时候,机...

42912
来自专栏云时之间

恋爱模型的简单构架

前言: 感谢微信群的各位大牛们和忆臻学长的帮助,让我能够完成这个文章。这个文章的开始是这一段时间看到我周围的小伙伴在跟很多的妹子聊天后总是无疾而终,过程虽然有...

3585
来自专栏FreeBuf

基于时间和地域构建一个网络诈骗形势模型

电信诈骗,网络诈骗层出不穷,花样翻新,是当前公安部重点打击的对象。本文从网络中爬取相关的新闻,通过对时域和数量的统计与分析,实现对网络诈骗模型中时间参量的优化,...

2357
来自专栏量子位

Google惊人研究:一组图片,就能强迫神经网络执行其他任务

812
来自专栏数据科学与人工智能

【数据挖掘】机器学习与数据挖掘的学习路线图1

应部分朋友要求,特奉上“机器学习与数据挖掘的学习路线图”,供有兴趣的读者研究。 说起机器学习和数据挖掘,当然两者并不完全等同。如果想简单的理清二者的关系,不妨这...

2569
来自专栏新智元

【干货】二值神经网络:让 AlphaGo 能在手腕运行

赢得围棋人机大战的AlphaGo为了运行神经网络,用了280块GPU,功率超过一百个李世石[1]。 这种使用浮点计算的神经网络要求的大存储空间和大计算量,严重阻...

45316

扫码关注云+社区

领取腾讯云代金券