大数据挖掘与机器学习

本章首先对数据挖掘和机器学习分别进行介绍,接下来是对两个概念进行对比,最后对机器学习算法做介绍与解释。此章内容不需要同学们理解算法内容,只需了解算法逻辑即可。

01

数据挖掘

作为一个新兴的多学科交叉产生的概念,数据挖掘(Data Mining)的定义有若干个版本,因为数据挖掘是一个很宽泛的概念。它一般是指从海量的数据中运用相应的算法分析,挖掘隐藏于其中有价值(未知的、有规律的)的信息的复杂过程。

传统数据挖掘一般步骤可以总结为:①信息收集,②数据集成,③数据规约,④数据清理,⑤数据变换,6数据挖掘,⑦模式评估,⑧知识表示。

说明:步骤1-5大家都比较熟悉。数据挖掘:仓库中的数据选择合适的分析工具;(根据业务需求及目标,选取合适的模型,算法/参数等。进行数据模式或知识规律的探索挖掘)。模式评估:从商业角度有行业专家验证数据挖掘结果的正确性。(对在数据挖掘步骤中发现的模式或知识进行解释。若模式不满足,再返回到前面某些处理步骤中反复提取。目的是根据一定评估标准从挖掘结果筛选出有意义的模式知识。知识表示:将发现的知识以用户能了解的方式呈现给用户,就是利用BI等可视化技术,向用户展示所挖掘出的知识,规律及结论。

02

机器学习

机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它关注的是使计算机程序能够像人一样根据经验的积累自动提高处理问题的性能。 通俗地讲,机器学习就是计算机模仿人类思维和学习过程,实现自主学习,并作出判断与决策。

机器模拟人类行为

机器学习的基本过程

机器学习与数据挖掘的区别:大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。

03

机器学习分类及算法

根据数据类型及业务诉求的不同,机器学习的学习方式主要分为无监督学习、监督学习、半监督学习以及增强学习。

无监督学习:你给小孩子一张画板,一支笔,告诉他要画一个小汽车。完全凭借小孩子的认知画出小汽车。

有监督学习:你给小孩子一张画板,一支笔,告诉他要画一个小汽车,这个小汽车有四个轮子,一个方向盘,车的前后方都有车灯。小孩子通过对你提供信息的理解,画出小汽车。

半监督学习:你给小孩子一张画板,一支笔,告诉他要画一个小汽车,这个小汽车有四个轮子,一个方向盘,车的前后方都有车灯。车上还要有雨刷,驾驶座位等(雨刷和驾驶座位的位置及形状不告诉小孩子)。通过你提供的信息,小孩子通过对你提供信息的理解,画出小汽车。

增强学习:小孩子画出了一个小汽车之后,带着他去看真正的汽车是什么样子的,回来让他完善自己画小汽车。

常用的无监督学习有关联规则和聚类分析。

常见的有逻辑回归、决策树和反向传递神经网络。

常用的半监督学习有支持向量机模型。

常用的增强学习算法有时间差学习算法。

04

大数据特征选择

在机器学习前,要进行大数据特征的选择,因为一方面是指它所包含样本(或实例)的数量比较庞大;另一方面是指用于描述样本的特征(或属性)维数比较多。(要求太多,是找不到女朋友的。漂亮一点,高一点,白一点,聪明一点,善良一点,开朗一点,懂事一点,可爱一点,温柔一点......)

特征选择主要有两个功能:

减少特征数量、降维,使模型泛化能力更强,减少过拟合

增强对特征和特征值之间的理解

05

后记

具体算法没有讲,跟大家用python演示了决策树和聚类分析(基于案例,从案例分析到模型选择,到评估及业务应用,旨在让大家理解与感受)。另外,广义上来讲,算法可以和模型等同,数据挖掘和机器学习等同。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181105G0PPAX00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券