专栏首页黄成甲数据挖掘那些事

数据挖掘那些事

当我们在谈数据挖掘时,其实在讨论什么

统计学、数据挖掘与机器学习是近年来经常一起出现的3个词语,尤其是数据挖掘与机器学习。有些人认为数据挖掘涵盖了机器学习,有些人认为机器学习应该包含数据挖掘,各种说法莫衷一是。实际上,由于近年来信息科学的高速发展,这些概念虽然有了一定的定义和解释,但是边界都相对模糊。如果从业务场景、算法应用的角度理解、学习他们,可以归类为数据科学——一门从数据中提炼知识及洞察趋势的科学。

文/黄成甲

将这种科学应用到生活中就是各种指数。例如:裙边理论:女性的裙子长度可以反映经济的兴衰,裙子越短,经济发展情况越好,裙子越长,经济发展情况越艰险。另外,还有德国啤酒指数:每当气温上升1度,啤酒销量就平均增加230万瓶,这就是“德国啤酒指数”;空调指数:在日本夏季,温度每上升1度,空调的销量就平均增加30万台。

这些行业指数都是统计学在某一方面的应用。当然,现在的统计学已经大大超出了行业指数研究的范畴。例如IBM在医疗领域利用Watson技术解决了包括糖尿病、白内障、肿瘤等难题。但是,无论是在过去、现在还是未来,人们总是希望能够借助观察事物(获取数据),通过合适的手段(建立统计挖掘模型)来量化这些关系。例如,借助一个人的身高来预测他的体重,

身高预测模型

上图是一个统计挖掘模型的基本形式。简单来说,统计挖掘模型是指利用一个或多个输入变量(一般也被称为自变量)通过拟合适当的关系式来预测目标变量(也被称为因变量)的方法。其中,f(x)是我们探求的关系式,但是其一般是固定并且未知的。尽管f(x)未知,但是我们的目标是利用一系列的统计/挖掘方法来尽可能求出接近f(x)的模型,这种模型可以是一个简单的线性回归模型y=ax+b,也可能是一个曲线模型y=a+bx²,当然也有可能是一个神经网络模型或者一个决策树模型。

这些模型从预测任务的角度看,估计出f(x)的形式并不意味着任务结束,在实际的商业实践中,可以将数据挖掘任务简单分为预测任务与控制任务。

(1)预测任务:我们关心的是目标变量Y的预测。预测模型f(x)的形式有可能是一个黑箱模型(即对于模型本身,我们不能很好解释或者并不清楚其内部结构,而是更加关心模型的输入和输出),只要能够提高预测精度,我们就认为达到目的了。一般,神经网络模型属于典型的黑箱模型。例如:Google X实验室开发出具有自主学习能力的神经网络模型,它能够从1000万张图片中找出那些有小猫的照片,其中,这1000万张图片就是输入,对于这些图片的识别就是输出。

(2)控制任务:在控制任务中,我们希望能够尽可能地描述清楚X与Y的关系。例如在金融行业,要通过客户的个人信用信息来评价个人的信用风险,这就要求模型不但能够回答这个客户的信用风险是高还是低,还要能回答哪些因素直接影响客户的信用风险,每个因素的影响程度有多大。

进一步的,从预测场景的角度看,又可以把统计挖掘划分为两种类型:有监督的学习与无监督学习。

学习类型

有监督的学习即对每一组自变量X都有一个因变量Y一一对应,通过拟合预测模型,可以更好的理解输入变量与目标变量之间的关系,例如,分析客户的个人信用信息来评价其信用风险,分析企业营销费用投入与销量的关系等。对于有监督学习,如果目标变量属于定量变量(即连续型变量,例如GDP、企业年销售额),那么可以把它定义为回归问题;如果目标变量属于定性变量(即分类型变量,例如违约客户与不违约客户),那么将其定义为分类问题。

而对于无监督学习,则只有自变量X,而没有明确的Y。例如,对于零售企业中每个会员的行为信息,通过无监督学习的方法(聚类)可以把会员划分为不同的客户细分群体,如粉丝客户群、性价比客户群等。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据分析之时间序列分析

    顾名思义,时间序列就是按照时间顺利排列的一组数据序列。时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。该技术有以下三个基本特点:

    黄成甲
  • 数据分析之对应分析

    还有一种探索性分析方法叫做对应分析。对应分析能够把一个交叉表结果通过图形的方式展现出来,用以表达不同变量之间以及不同类别之间的关系。对应分析实际也是“降维”方法...

    黄成甲
  • 怎样成为解决问题的高手——掌握系统循环图(连载六)

    在连载三讲了系统思维就是选择、改善或构建“框架”,以更快速、更全面、更深入地系统思考和表达的思维方式。使用框架实现更快速、更全面、更深入解决问题的关键在于框架的...

    黄成甲
  • CPC(representation learning with contrastive predctive coding)

    摘要: 监督学习在很多应用方面有了巨大的进步,但是非监督学习却没有如此广的应用,非监督学习是人工智能方面非常重要也非常具有挑战性的领域。这篇论文提出了 cons...

    用户1908973
  • Flutter 新零售电商App UI界面设计与开发

    使用Flutter开发跨平台UI界面,快速高效,可谓神器。一套代码开发出来,在IOS和Android上面都能运行流畅,网上关于Flutter入门博客已不少了,但...

    arcticfox
  • 业界 | 谷歌发布全新轻型机器学习架构:可直接载于设备端的AI系统

    AI科技评论按:谷歌近日发布了全新应用于可穿戴设备的Android Wear 2.0系统和相关设备,而这一批系统和设备,将具有一项新技能:运行谷歌全新的“设备端...

    AI科技评论
  • 「镁客晚报」乐视发布新手机乐1s,未来推免费生态汽车!

    镁客网
  • Vue混入mixins

    混入(mixins) 是一种分发 Vue 组件中可复用功能的非常灵活的方式。混入对象可以包含任意组件选项。当组件使用混入对象时,所有混入对象的选项将被混入该组件...

    wade
  • 什么是Java构造函数?【Programming】

    在开放源代码,跨平台编程中,Java是(无可争议的)重量级人物。 尽管有许多出色的 跨平台 框架 ,但很少有像Java这样统一和直接的框架 。

    Potato
  • 融合机器学习模型:一种提升预测能力的方法

    幸运的是,结合/融合/整合 (integration/ combination/ fusion)多个机器学习模型往往可以提高整体的预测能力。这是一种非常有效的提...

    统计学家

扫码关注云+社区

领取腾讯云代金券