专栏首页不温卜火大数据应用导论 Chapter04 | 大数据分析

大数据应用导论 Chapter04 | 大数据分析

一、数据分析介绍

什么是数据分析?

  • 数据分析就是利用机器学习等算法分析数据、挖掘数据信息的一个过程。
  • 机器学习是大数据分析的核心方法
  • 机器学习就是让计算机从大量的数据中学习相关的规律,然后利用学习来的规律对未知数据进行预测的方法。

1、机器学习发展历程

2、机器学习的分类

2.1、有监督学习(supervised learning)

数据集中的样本带有标签,有明确目标

  • 实例:信用风险评估 根据用户的历史还款记录和信用账户账龄等信息,预测用户未来是否违约。

2.2、无监督学习(unsupervised learning)

数据集中的样本没有标签,没有明确目标

  • 实例:电信用户聚类 根据用户的通信行为数据集,将电信用户划分为不同的群体

2.3、强化学习(reinforcement learning)

智慧决策的过程,通过过程模拟和观察来不断学习、提高决策能力

  • 实例:AlphaGo

3、机器学习的基本概念和流程

3.1、机器学习的基本概念

1、明确目标

  • 将实际问题转换为数学问题
  • 明确需要的数据的形式
  • 明确机器学习的目标分类、回归还是聚类,还是其他
1、什么是分类
  • 分类就是根据样样本数据的特征或属性,将其分到某一已有的类别中 eg:在电子邮箱服务中,将邮箱划分为正常邮件或垃圾邮件,这时比较典型的一个分类问题。
2、什么是回归
  • 在日常生活中,我们会碰到目标特征为连续型的预测问题,例如收入预测、销量预测和商品预测等,这种问题称为回归问题。 eg:根据钻石的切割、成色、净度、卡拉重量和价格等特征,对钻石的价格进行预测。
3、什么是聚类
  • 聚类就是将数据集中类似的样本进行分组的过程,每一个称为一个“簇” eg:根据全球各地观测到的气候特征,将全球划分为不同的气候区域

3.2、机器学习的基本流程

下图为信贷模型完整流程示意:

信贷模型

  • 目标:根据借贷人的基本信息如收入、教育程度、婚姻状态等,预测借贷人未来是否违约
  • 研究的问题“是否违约”称为目标变量
  • 研究的问题是一个分类问题

特征:

  • 在信贷模型中,我们收集到的数据集中的变量有:性别、收入、教育程度、婚姻状态等,我们把这些变量称为特征。
  • 特征不仅仅包括这些可以直接获得的变量,还包括利用原始信息构成的新的变量。

特征的数据类型:

1、训练集和测试集

  • 在银行贷款案例中,我们将获取到的数据集分为两部分,一部分用来学习分类、训练模型,称之为训练集;另一部分用来预测,即测试训练好的模型的预测能力,称之为测试机
  • 一般按照一定的比例随机的将数据集划分为训练集和测试机

2、训练模型和测试模型

1、训练模型
  • 用训练集来训练模型,其中每个训练样本由特征和目标变量组成
  • 银行借贷案例中,每个训练样本有四种特征(性别、收入、教育程度、婚姻状态),一个目标变量(是否违约)
2、测试模型
  • 当完成模型训练后,利用测试集对模型进行测试,检验模型的好坏
  • 将测试集输入训练好的模型,输出预测值
  • 通过性能指标,比较预测的目标变量值和实际目标变量值之间的差别,评价模型的好坏
3、模型性能评估
  • 在回归问题上,通常用均方误差(MSE)来评价模型的好坏
  • 在分类问题上,常用正确率和错误率来评价模型的好坏
  • 混淆矩阵(confusion matrix)可以直观查看分类问题中预测分类与真实分类的情况
  • 正确率(Accuracy):正确分类(预测类别与实际类别相等) 样本数占样本总数的比例:
  • 一般情况下,正确率越大,表示模型预测效果越好
  • 错误率:错误分类(预测类别与实际类别不相等)样本数占样本总数的比例:
  • 一般来说,错误率越小,表示模型越策效果越好
  • 召回率(recall)和精度(precision):
  • ROC曲线基本概念:
  • AUC值:

二、机器学习算法模型与算法

不同的模型能达到不同的效果,如果选择错模型,就会无用功。

1、线性回归

基本思想:

  • 就是寻找一条直线,使得所有样本尽可能地落在它的附近,即目标变量y和特征x之间的关系近似遵循一条直线

1.1、公式及图解

  • 一元线性回归模型为:

1.2、线性回归的特点:

  • 形式简单,易于建模
  • 具有很好的可解释性

2、逻辑回归

  • 逻辑回归之所以称为“回归”,是因为它采用了回归分析的思想。然而,它是用来解决分类问题的模型,通常解决的是二分类问题
  • 逻辑回归是应用最为广泛的模型之一
  • ①金融领域的风险评估
  • ②互联网广澳点击预测

从线性回归到逻辑回归

  • 在线性回归中,预测目标y是连续型,模型如下
  • 假如要解决的是二分类问题,也就是预测目标y为离散型
  • 这时线性回归无法解决该问题
  • 为了能够利用回归的方法来解决二分类问题,需要对线性回归的输出作改变

改变方式—引入Logistic函数

2.1、逻辑回归公式

2.2、逻辑回归的特点

  • 速度快,适合二分类问题
  • 简单易于理解,可以直接看到各个特征的权重

3、K近邻(KNN)

K近邻并没有学习的过程,而是在预测的时候根据数据的状况直接进行预测

3.1、K近邻算法流程

  • 确定K的大小和相似度的计算方法
  • 从训练样本中挑选k个与测试样本最相似的样本
  • 根据k个训练样本的类别,通过投票的方式来确定测试样本的类别

3.2、K近邻(KNN)的特点

优点:

  • 简单实用,易于实现
  • 对异常数据不敏感

缺点:

  • 计算效率不高

4、决策树

生活中有很多场景需要我们通过一系列问题的诊断结果来进行决策。

4.1、决策树的基本结构

  • 一个根节点(没有箭头指向它):图中的“收入”就是一个根节点
  • 内部节点(既有箭头指向它,它又有箭头指出):图中的“教育程度”就是一个内部节点
  • 叶子节点(只有箭头指向它,它没有箭头指出):表示一个类,图中粉色和绿色方块就是两个叶子节点

4.2、决策树的生成

  • 决策树模型就是基于特征,自动生成一颗具有分类能力的树的过程
  • 从根节点开始,进行特征的选择(如年龄)
  • 然后选择该节点特征的分裂点,根据分裂点分裂节点(如50)
  • 然后选择新的特征作为分支节点,继续分裂,直至达到一定条件停止分裂,形成一颗决策树

4.3、决策树的特点

  • 原理简单、易于理解
  • 具有较强的解释性
  • 对缺失值也有很好的处理方式

5、K-means聚类

  • 聚类:“物以类聚,人以群分”
  • K-means聚类原理: 将n个样本划分到K个簇中,其中每个样本归属于距离自己最近的簇
  • 聚类效果:使簇内具有较高的相似度,而簇间的相似度较低

5.1、K-means算法步骤

1、随机选取K个样本作为初始中心 2、重复迭代如下步骤直至收敛:

 ①把每个样本指派到最近的中心,形成K个簇
 ②重新计算每个簇的中心
 ③直到中心不在发生变化

5.2、K-means算法的优缺点

优点:

  • 算法实现简单、直观
  • 支持多种距离计算

缺点:

  • 聚类结果依赖于初始于K个中心的选择
  • 需要指定K值和初始化K个簇
  • 不易处理非簇状数据,且易受离群值的影响

6、PCA降维

  • 高纬数据给数据分析带来的一个严重的挑战是维度灾难问题,即模型的复杂度和计算量随着维数的增加而呈指数增长
  • 降维试解决维度灾难的一种手段

假如我们现在要借助用户手机的通信数据对用户价值进行分析,原始通信数据包括:入网时间、套餐价格、每月话费、每月流量、每月通话时长、欠费金额、欠费月数等7个特征,但它的“内在维度”可能只有3个:用户忠诚度、消费能力、欠费指数,这3个维度能够更加直观地对用户价值进行刻画

  • 即将原始7维数据降为3维

6.1、PCA的基本思想

主成分分析(PCA)是一种有效的降维方法

  • 构成原始特征的一系列线性组合形成低维的特征,以去除相关数据的相关性,并使降维后的数据最大程度地保持原始高维数据地信息
  • 即把多个特征转换为少数几个互不相关地总和特征,且尽可能地保留原始数据地信息,这些互不相关地综合特征称为主成分

6.2、步骤

6.3、特点

优点:

  • 计算效率高
  • 便于理解低维数据

缺点:

  • 构建的主成分特征没有明确的含义

三、数据分析的工具与介绍

1、数据分析常用工具

  1. 基于Python的Scikit-learn库
  2. 基于Hadoop的Mahout
  3. 基于Spark的Mllib模块

2、常用到的Python模块

  1. Numpy库:科学计算基础库
  2. Pandas库:数据处理和分析工具库
  3. Scipy库:算法和数学工具库
  4. Matplotlib:绘制数据图表的库
  5. Scikit-learn(简称Sklearn)库:机器学习库

3、Sklearn库

3.1、Sklearn库简介

Sklearn是Python著名的机器学习库

  • 封装了众多机器学习算法,内置了许多公开数据集,且拥有完整的文档
  • 实现了数据预处理、分类、回归、降维、特征选择、特征抽取和模型评价等机器学习功能
  • Sklearn官网:http://scikit-learn.org/stable/index.html#

3.2、常用模块

  • 分类:Classification 包括逻辑回归、K近邻、决策树等
  • 回归:Regression 线性回归
  • 聚类:Clustering K-means
  • 降维:Dimensionality reduction 主成分分析(PCA)
  • 模型选择:Model selection
  • 预处理:Preprocessing

4、Mahout

  • Apache Mahout是Apache Software Foundation(AFS)旗下的一个开源项目,提供了一些经典的机器学习的算法
  • Mahout安装官网:http://archive.apache.org/dist/mahout/
  • 基于Hadoop的机器学习和数据挖掘的分布式框架,通过MapReduce模式实现
  • 封装了大量数据挖掘经典算法,包括聚类、分类等

5、基于Spark的Mllib模块

5.1、Spark简介

  • Spark是专用大规模数据处理而设计的快速通用的计算引擎。具有运行速度快。容易使用、通用性强、运行模式多样的特点
  • Spark安装官网:http://spark.apache.org/downloads.html
  • Spark 分布式数据分析
  • 允许用户将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。
  • Spark的一个最大特点就是它的分布式计算,即它可以将一个大任务分解成很多小人物,交给很多台机器去分别完成,最后汇总,这就是“人多力量大”的道理。

除了数据处理性能上的优化,Spark还提供了多种特殊环境下的数据分析工具

5.2、Mllib

  • Mllib是构建在Apache Spark之上,一个专门针对大数据处理通用的、快速的引擎
  • Mllib是Spark的可以拓展的机器学习库
  • 由以下部分组成: 通用的学习算法和工具,包括分类、回归、聚类、协同过滤、降维、以及调优等。

Mllib提供的工具:

  • 机器学习算法:常用的学习算法,如分类、回归、聚类
  • 特征:特征提取、选择及降维
  • 存储:保存和加载算法、模型
  • 实用工具:线性代数,统计,数据处理等

四、使用K近邻构造糖尿病诊断模型(案例)

1、前提准备

此案例的目标:

  • 根据历史数据信息,建立糖尿病自动诊断模型,预测被诊断者是否患有糖尿病
  • 分类问题
  • 使用K邻近算法进行分类

糖尿病的背景介绍:

  • 主要特征:高血糖
  • 检测糖尿病大多需要检查血糖、体重、胰岛素水平等

数据集特征说明:

2、分析过程

2.1、数据导入

  • 载入pandas库,利用read_csv函数读取数据
import pandas as pd
diabetes = pd.read_csv("./input/india_diabetes.csv")
  • 数据查看
# 数据查看
display(diabetes.head(10))  
  • 导入后的数据表格一共9列
  • Pandas中describe()函数可查看数据集中变量的描述性信息

2.2、数据划分

  • 在数据集划分之前,将特征和目标变量分离
  • 其中X为特征,Y为目标变量
X=diabetes.iloc[:,:8]
Y=diabetes.iloc[:,8:9]
  • 特征变量中,怀孕次数(Pregnancies)为离散型特征,其它为连续型特征
  • 另一种切分方法:载入sklearn.model_selection,利用train_test_split()函数将数据集按照一定的比例随机划分为训练集和测试机
# 将数据集划分为训练集和测试集
# 通过控制random_state
# 可以保证每次切分的时候,得到的结果是一样的
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,Y,test_size=0.2,random_state=10,stratify=diabetes['Outcome'])

代码解释:

  • 将数据集按8:2比例划分成训练集(train)和测试集(test)
  • test_size为测试集比例(0.2表示测试集占总样本的比例)
  • 参数stratify保持测试集和训练集中Outcome(目标变量)类别比例不变

用训练集训练模型

  • 从sklearn.neighbors中载入k近邻算法KNeighborsClassifier
from sklearn.neighbors import KNeighborsClassifier
# 生成模型
knn = KNeighborsClassifier(n_neighbors=5)
# 训练模型
knn.fit(X_train,y_train)

利用测试集测试模型:

# 测试模型
y_predict = knn.predict(X_test)
# 测试集上的预测结果
y_predict
  • 其中"1"表示"是",“0"表示"否”

模型性能评估

  • sklearn中有可直接得出正确率的函数:accuracy_score()
# 查看模型的正确率
from sklearn.metrics import accuracy_score
accuracy_score(y_test,y_predict)
# 74.5%的数据预测是正确的

得到的结果是:0.745

我们也可以通过混淆矩阵计算正确率

性能提成

  • 再上述K近邻模型中,K=5,我们知道,对于不同的K值,将会得到不同的模型,所以尝试取不同的K值,得到最优模型。
klist = [3,5,7,9]
knn_grid = KNeighborsClassifier(n_neighbors=5)
# 搜索参数
knn_grid = GridSearchCV(knn_grid,dict(n_neighbors = klist), cv=10)
# GridSearchCV
# 训练
knn_grid.fit(X_train,y_train)
# 获取最佳
y_predict_grid = knn_grid.best_estimator_.predict(X_test)
  • 利用Python自动选取最优K值
#最优K值
knn_grid.best_params_
{'n_neighbors': 3}
  • 用选取的最优K值进行预测
#利用最优k值进行预测
y_predict_grid = knn_grid.best_estimator_.predict(X_test)
accuracy_score(y_test,y_predict_grid)
# 77.5%

结果为:0.775

以上就是一个完整的机器学习流程。

3、完整代码

# warning
import warnings
warnings.filterwarnings('ignore')

# 数据展示方法
from IPython.display import display
# 载入pandas
import pandas as pd
# matplotlib
%matplotlib inline


# 载入数据
diabetes = pd.read_csv("./input/india_diabetes.csv")
# 数据查看
display(diabetes.head(10)) 


# 查看数据维度
diabetes.shape


# 统计各列键非空数据数量、数据类型
diabetes.info()


# 描述性统计
diabetes.describe()


# 查看目标特征各个类别的数量
diabetes['Outcome'].value_counts()


数据集划分
# 将目标变量和特征分离
# 特征和label的分离
X=diabetes.iloc[:,:8]
Y=diabetes.iloc[:,8:9]


# 将数据集划分为训练集和测试集
# 通过控制random_state
# 可以保证每次切分的时候,得到的结果是一样的
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,Y,test_size=0.2,random_state=10,stratify=diabetes['Outcome'])


X_train.head()



# 查看训练集中目标变量类别比例
y_train['Outcome'].value_counts()


# 查看测试集中目标变量类别比例
y_test['Outcome'].value_counts()



学习算法——knn
# 训练模型

# 载入模型
from sklearn.neighbors import KNeighborsClassifier
# 生成模型
knn = KNeighborsClassifier(n_neighbors=5)
# 训练模型
knn.fit(X_train,y_train)
# 测试模型
y_predict = knn.predict(X_test)
# 测试集上的预测结果
y_predict


# 查看模型的正确率
from sklearn.metrics import accuracy_score
accuracy_score(y_test,y_predict)
# 74.5%的数据预测是正确的


另一种办法:
from sklearn import metrics
import seaborn as sns
colorMetrics = metrics.confusion_matrix(y_test,y_predict)
sns.heatmap(colorMetrics,annot=True,fmt='d')


选取最优K值
from sklearn.model_selection import GridSearchCV
klist = [3,5,7,9]
knn_grid = KNeighborsClassifier(n_neighbors=5)
# 搜索参数
knn_grid = GridSearchCV(knn_grid,dict(n_neighbors = klist), cv=10)
# GridSearchCV
# 训练
knn_grid.fit(X_train,y_train)
# 获取最佳
y_predict_grid = knn_grid.best_estimator_.predict(X_test)



#最优K值
knn_grid.best_params_


#利用最优k值进行预测
y_predict_grid = knn_grid.best_estimator_.predict(X_test)
accuracy_score(y_test,y_predict_grid)
# 77.5%

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 快速入门Tableau系列 | Chapter14入门最终章【回归分析和时间序列分析】

    此部分仅仅是告诉你怎样用Tableau做这个模型,如果想要更加深刻的了解可以去看专门的统计学课程。

    不温卜火
  • MapReduce快速入门系列(16) | MapReduce开发总结

      用户根据业务需求实现其中三个方法:map() setup() cleanup()

    不温卜火
  • 三分钟教你如何在IDEA中快速创建工程

    如果要创建 Web 工程,则需要勾选上面的 Web Application。如果不需要创建 Web 工程的话,则不需要勾选。这里先不勾选,只是创建简单的 ...

    不温卜火
  • 围观SVM模型在分类和预测问题上的强悍表现!

    在上一期的《手把手教你如何由浅入深地理解线性SVM模型》中我们分享了线性SVM模型的来龙去脉,得到很多读者朋友的点赞和支持,本期我们继续分享SVM模型的其他知识...

    1480
  • 机器学习101(译)

    大蟒传奇
  • 模型融合

    一般来说,通过融合多个不同模型的结果,可以提升最终的成绩,所以这以方法在各种数据竞赛中应用非常广泛。模型融合又可以从模型结果、模型自身、样本集等不同的角度进行融...

    mathor
  • 【V课堂】机器学习系列:(二)线性回归

    线性回归 本章介绍用线性模型处理回归问题。从简单问题开始,先处理一个响应变量和一个解释变量的一元问题。然后,我们介绍多元线性回归问题(multiple line...

    小莹莹
  • 2019年在NLP领域,资源有限的个人/团队能做哪些有价值有希望的工作?

    https://www.zhihu.com/question/312388163/answer/600712686

    zenRRan
  • 机器学习第一步,这是一篇手把手的随机森林入门实战

    作为数据科学家,我们可以通过很多方法来创建分类模型。最受欢迎的方法之一是随机森林。我们可以在随机森林上调整超参数来优化模型的性能。

    机器之心
  • 时至今日,深度学习领域有哪些值得追踪的前沿研究?

    这个问题是2020年新提出来的,我觉得非常有参考和学习价值。AI方向本身就是一个多融合的领域,将基础性知识迁移应用到各个子方向,其实也是目前一大主流。本文主要分...

    Amusi

扫码关注云+社区

领取腾讯云代金券