数据挖掘之认识数据学习笔记相关术语熟悉

张俊怡

发布于 2018-04-24 13:37:55

1.2K0

发布于 2018-04-24 13:37:55

文章被收录于专栏：深度学习计算机视觉深度学习计算机视觉

相关术语熟悉

首先认识数据的属性

属性是一个数据字段，表示数据对象的一个特征

标称属性

标称属性的值是一些符号或事物的名称，这一些值可以看做是枚举的比如，职业，具有教师、农民、程序员等等

二元属性

二元属性是一种标称属性，只有两个类别或状态：0或1，0代表该属性不出现，1代表出现，二元属性也叫作布尔属性二元属性有对称或者非对称一说

序数属性

值之间可能有有意义的序或者秩评定

数值属性

它是可度量的值，可以是区间标度或者比例标度

离散属性与连续属性

这个...好理解

数据的基本统计描述

中心趋势度量：均值(有结尾均值，即抛弃少数极端数值)、中位数、众数（分单峰、双峰..）度量数据散布：极差、四分位和四分位极差四分位：第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数 (Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。第三四分位数与第一四分位数的差距又称四分位距（InterQuartile Range,IQR）。[1]

图片.png

图片.png

四分位极差：第1个和第3个四分位数之间的距离是散布的一种简单度量，它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR)，定义为

图片.png

盒图(boxplot)：摆弄数据离散度的一种图形。它对于显示数据的离散的分布情况效果不错。在软件工程中，Nassi和Shneiderman 提出了一种符合结构化程序设计原则的图形描述工具，叫做盒图，也被称为N-S图。

盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成：最小值(min)，下四分位数(Q1)，中位数(median)，上四分位数(Q3)，最大值(max)。也可以往盒图里面加入平均值(mean)。如图。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线，这个延伸线成为“胡须(whisker)”。由于现实数据中总是存在各式各样地“脏数据”，也称为“离群点”，于是为了不因这些少数的离群数据导致整体特征的偏移，将这些离群点单独汇出，而盒图中的胡须的两级修改成最小观测值与最大观测值。这里有个经验，就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即 1、IQR = Q3-Q1，即上四分位数与下四分位数之间的差，也就是盒子的长度。 2、最小观测值为min = Q1 - 1.5IQR，如果存在离群点小于最小观测值，则胡须下限为最小观测值，离群点单独以点汇出。如果没有比最小观测值小的数，则胡须下限为最小值。 3、最大观测值为max = Q3 + 1.5IQR，如果存在离群点大于最大观测值，则胡须上限为最大观测值，离群点单独以点汇出。如果没有比最大观测值大的数，则胡须上限为最大值。

图片.png

方差和标准差：标准差计算公式：假设有一组数值X₁,X₂,X₃,......Xn（皆为实数），其平均值（算术平均值）为μ，公式如图1。标准差也被称为标准偏差，或者实验标准差，公式为

N%7}$%JWQAGLKT_032QBK}C.png

方差离散型方差离散型方差的计算式为：

![Uploading M2]XN1IX%W%@2[P1FAL2W1U_592727.png . . .]

连续型方差连续型方差的计算式为：

Y%@I0V8U521M~O~_A7OAJRY.png

数据的基本统计描述的图形表示

1、分位数图对于某序数或数值属性X，设xi(i=1，…，N）是按递增序排序的数据，使得x1是最小的观测值，而xN是最大的。每个观测值xi与一个百分数fi配对，指出大约fi×100%的数据小于值xi。我们说“大约”，因为可能没有一个精确的小数值fi，使得数据的fi×100%小于值xi。注意，百分比0.25对应于四分位数Q1，百分比0.50对应于中位数，而百分比0.75对应于Q3。

图片.png

2、分位数-分位数图

图片.png

3、直方图 4、散点图与数据相关

数据可视化

基于像素的可视化技术

一种可视化一维值的简单方法是使用像素，其中像素的颜色反映该维的值。对于一个m维数据集，基于像素的技术（pixel-oriented technique）在屏幕上创建m个窗口，每维一个。记录的m个维值映射到这些窗口中对应位置上的m个像素。像素的颜色反映对应的值。

图片.png

几何投影可视化技术

几何投影技术的首要挑战是设法解决如何在二维显示上可视化高维空间

散点图使用笛卡儿坐标显示二维数据点。使用不同的颜色或形状表示不同的数据点，可以增加第三维。图2.13显示了一个例子，其中X和Y是两个空间属性，而第三维用不同的形状表示。通过这种可视化，我们可以看出“+”和“×”类型的点趋向于一起出现。

图片.png

对于维数超过4的数据集，散点图一般不太有效。散点图矩阵是散点图的一种有用扩充。对于n维数据集，散点图矩阵是二维散点图的n×n网格，提供每个维与所有其他维的可视化。

图片.png

切尔诺夫脸和人物线条画

层次可视化技术

把维度划分成子集，将子集层次可视化

图片.png

度量数据的相似性和相异性

数据矩阵和相异性矩阵数据矩阵（data matrix）或称对象-属性结构：这种数据结构用关系表的形式或n×p（n个对象×p个属性）矩阵存放n个数据对象：

图片.png

相异性矩阵（dissimilarity matrix）或称对象-对象结构：存放n个对象两两之间的邻近度（proximity)，通常用一个n×n矩阵表示：

图片.png

数据矩阵由两种实体或者事物组成，行和列均代表对象，所以被称为二模，而相异性矩阵只包含一类实体，被称为单模

标称属性的邻近性度量

图片.png

其中，m是匹配的数目（即i和j取值相同状态的属性数），而p是刻画对象的属性总数。我们可以通过赋予m较大的权重，或者赋给有较多状态的属性的匹配更大的权重来增加m的影响。

所以当m=p时两个对象就一样了，因为标称属性完全相同计算相异性矩阵

图片.png

使得当对象i和j匹配时，d(i，j）=0；当对象不同时，d(i，j）=1。于是，我们得到

图片.png

二元属性的邻近性度量

回忆一下，二元属性只有两种状态：0或1，其中0表示该属性不出现，1表示它出现

计算二元属性相异性一种方法涉及由给定的二元数据计算相异性矩阵。如果所有的二元都被看做具有相同的权重，则我们得到一个两行两列的列联表——表2.3，其中q是对象i和j都取1的属性数，r是在对象i中取1、在对象j中取0的属性数，s是在对象i中取0、在对象j中取1的属性数，而t是对象i和j都取0的属性数。属性的总数是p，其中p=q+r+s+t。

图片.png

对于对称的相异性，每个状态同等重要，则i和j的相异性为：

图片.png

数值属性的相异性

计算数值属性刻画的对象的相异性的距离度量包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。

最流行的距离度量是欧几里得距离（即，直线或“乌鸦飞行”距离）。令i=（xi1，xi2，…，xip）和j=（xj1，xj2,…，xjp）是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离定义为：

图片.png

另一个著名的度量方法是曼哈顿（或城市块）距离，之所以如此命名，是因为它是城市两点之间的街区距离（如，向南2个街区，横过3个街区，共计5个街区）。其定义如下：

图片.png

闵可夫斯基距离：是欧几里得距离和曼哈顿距离的推广

图片.png

在某些文献中，这种距离又称Lp范数（norm），其中p就是我们的h。我们保留p作为属性数，以便于本章的其余部分一致。）当p=1时，它表示曼哈顿距离（即，L1范数）；当p=2表示欧几里得距离（即，L2范数）。

序数属性的邻近性度量

暂时没看懂...

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2017.01.26 ，如有侵权请联系 cloudcommunity@tencent.com 删除

数据挖掘

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

数据挖掘

登录后参与评论

0 条评论

热度