前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学通识第七讲:数据分析

数据科学通识第七讲:数据分析

原创
作者头像
数据酷客
修改2020-04-28 10:13:35
1.6K0
修改2020-04-28 10:13:35
举报
文章被收录于专栏:数据科学人工智能
视频内容

数据科学最重要的内涵是用科学的方法来研究数据。数据科学是在数学、统计学、计算机科学等相关学科的支撑下对数据开展研究和应用的学科,它包括数据采集、数据管理、数据治理、数据分析、数据可视化、数据伦理和数据应用等数据处理全流程,其中,数据分析是对数据进行详细研究和概括总结,进而提炼有价值信息的过程。

数据分析概述

数据分析是基于某个目的对数据进行分析和总结概括的过程。它的意义在于把隐藏在数据中的信息萃取和提炼出来,以便帮助人们找到所研究对象的内在规律,或者事物的发生、发展和未来变化的规律,进而帮助人们做出判断以及正确的决策。

数据分析在整个数据科学中具有重要的地位和作用,因为它是从数据中提取价值的关键步骤。数据分析通过对数据的概括总结,提取出价值信息,进而达到数据科学的目的。

数据分析的主要技术是探索性数据分析和机器学习。探索性数据分析 (Exploratory Data Analysis, EDA)是探索数据的结构和规律来分析数据间关系的一种数据分析技术,它注重描述数据的真实分布情况,强调对数据的可视化呈现,来启发和帮助数据分析者找出数据中隐含的规律。

机器学习 方法是近年来发展非常迅速的一种方法,也是大数据时代的重要的数据分析技术,它利用数据来训练模型,进而获取对知识和信息的理解,发现其中的规律。

与机器学习结合,探索性数据分析在实际应用中往往可以看作是为了机器学习模型的建立而开展的一种前置性分析。

探索性数据分析

数据的类型,包括名义型(Nominal)、布尔型(Binary)、等级型(Ordinal)、数值型(Numeric)这四种类型。

名义型数据,是对数据对象进行分类或分组的一种“标签”。比如,性别可以分为男/女,月份可以分为一月、二月、三月等等。名义型数据的特点是取值只是不同类别的代码,不能区分大小,也不能进行任何的数学计算,比如将一月和二月相加是没有任何意义的。

布尔型的数据对应两个布尔值:True和False,分别对应1和0。布尔型的数据对象通常只有非此即彼的两个状态,没有第三种取值。比如“是否违约”的取值要么是“违约”,要么是“未违约”;再比如,“是否已婚”只能取“已婚”或“未婚”这两个值。布尔型数据在计算机中的实现,一般也是对应地一个取值设成1,另一个取值设成0,方便程序进行逻辑判断。

等级型将数据对象分成不同的类别,它与名义型和布尔型的区别在于它所确定的类别的等级是有差别的,或者是有一定序列差别的,因此可以排序和比较大小。比如受教育程度可以分为高中及以下、本科、研究生的依次递进关系;再比如,学习成绩可以分为优、良、差这样的等级。等级型数据对象的特点是虽然可比较大小,但也不能进行数学计算,不能进行加减乘除。

第四种基本类型是数值型。数值型是最常见的数据类型,它直接使用自然数或可进行测量的具体数值来表达取值,比如收入情况和考试分数等可以直接用实数进行表达。因此,数值型数据既可以进行数学计算,也可以比较大小。

数据的集中趋势分析,我们主要介绍三种方法:均值法、中位数法和众数法:

  • 均值是指所有数据值之和除以数据值的个数,反映了一组数据的一般水平;
  • 中位数是指将所有的数据按照从小到大或者从大到小的顺序来排列后,位于中间位置的数。中位数反映了一组数据的中间水平。中位数不受极端值的影响,即如果出现一个特别大的数或者特别小的数,也不会影响中位数的位置;
  • 众数是指所有数据中出现次数最多的数,它直观反映了一组数据的集中趋势,它的特点也是不受极端值的影响。

在这三个数值中,只有均值会受极端值的影响。因此相比较而言,中位数和众数能够更好地表达这一组数据的集中趋势情况。

数据的离散趋势分析,我们也介绍三种方法:极差、方差和标准差:

为了考察数据的分布情况,我们将样本数据按一定规则划分为若干小组,落在各小组内的数据个数叫做频数,而每一小组的频数与数据总数的比值叫做频率。有了频数和频率,我们就可以绘制直方图了。

直方图是由一系列高度不等的纵向条纹来表示数据分布情况的一种图形。一般横轴表示数据类型或某一样本属性的一个度量;纵轴选取频数或者频率,这样绘制出来的图形就称作叫直方图。

核密度图是直方图的一个拓展,它使用平滑曲线来表达数据在连续取值时的分布情况。

如果变量之间存在密切关系,但又不能由一个或几个值来确定另一个值时,这种变量间的非一一对应的不确定关系就称作相关关系。比如我们知道一个人的身高与父母的身高之间有着密切关系,但又不是由父母身高唯一确定的,还受到后天很多因素影响,那么我们就称子女身高与父母身高之间构成相关关系。 此外,一个人的身高与体重之间也存在着相关关系。证券指数与利率之间也具有相关关系。

相关关系可以分为线性相关和非线性相关,也可以分为正相关和负相关。

如果两个变量之间的关系可以近似地表现为一条直线,如第一张图所示的那样,那么我们就称作为线性相关;如果像第二张图这样,两个变量间的关系近似地表现为一条曲线,我们就称作非线性相关。

如果一个变量增加或减少,导致另一个变量也跟着增加或减少,我们就称这两个变量是正相关;反过来,如果一个变量增加导致另一个变量减少,或者是一个变量减少导致另一个变量增加,我们就称这两个变量之间是负相关。

机器学习

与探索性数据分析相比,机器学习被广泛用于数据的预测性分析中。比如我们可以根据房屋的面积、地理位置、建成年代等,来对房屋的价格进行预测;我们还可以根据孩子的年龄、性别、体重等特征,来预测孩子的身高的变化;还可以根据客户的历史借贷情况、受教育程度、工资收入等,来预测用户是否会违约,进而开展信用风险评估;在电商领域,可以将客户划分成不同的细分群组,每个群组的客户有相似地消费和购买行为,进而可以实现对不同群组客户的精准营销。

在以上领域,机器学习都有着广泛的应用。那么机器学习是如何做到这些的呢?一个简单的例子是,在信用风险评估中,我们将已知的客户信用数据和客户是否违约的标签数据输入到计算机中,采用某种机器学习的算法,通过对这些数据进行计算,得到一个信用风险评估的模型。得到模型之后,我们再输入关于客户的相关信用数据,系统就可以自动地判断出这个客户是否会违约。

再比如在房价预测问题中,我们将房屋的面积、布局、建成年代等数据,以及已知的房屋价格数据输入到计算机中,采用某种机器学习算法,通过对这些数据进行计算,我们就可以得到一个房价的预测模型。有了这个模型,我们再输入房屋的面积、布局等相关数据之后,就可以自动地输出一个房屋的价格。

仍以房价预测问题为例。我们得到了一组相关的数据,包括建成年代、面积、布局、房价这四个属性,一共有5条数据。我们首先介绍机器学习的几个基本概念:

我们将一组数据称作是一个数据集(dataset),其中的一行数据称作是一个样本,每一个样本都包含一个或多个特征。在这个问题中一共有三个特征和一个标签。这里的标签是指我们要进行预测的房价,也称作目标变量,相应地称前面三个特征(建成年代、面积和布局)为输入变量。

在对房价进行预测时,我们需要建立一个模型,即建立输入的特征 x 和房价 y 之间的一个映射关系 y=f(x)。在这个问题中,输入 x 为建成年代,房屋面积、布局等数据,而输出的 y 则是我们预测的目标,即房屋价格。

在建立模型时,机器学习的方法需要将数据集分为训练集(training set)和测试集(test set)两组。训练集,顾名思义,是用来训练模型的,即得出函数关系 y=f(x)。而测试集则用来评估模型的有效性,我们得出的函数关系 y=f(x) 与真实情况相比,准确度有多高?一般而言,在拥有的数据样本中,我们至少拿出70%的样本来进行模型的训练,再用剩余的30%的样本来对得出的模型进行测试。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据分析概述
  • 探索性数据分析
  • 机器学习
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档