数据挖掘之认识数据学习笔记相关术语熟悉

相关术语熟悉

首先认识数据的属性

属性是一个数据字段,表示数据对象的一个特征

标称属性

标称属性的值是一些符号或事物的名称,这一些值可以看做是枚举的 比如,职业,具有教师、农民、程序员等等

二元属性

二元属性是一种标称属性,只有两个类别或状态:0或1,0代表该属性不出现,1代表出现,二元属性也叫作布尔属性 二元属性有对称或者非对称一说

序数属性

值之间可能有有意义的序或者秩评定

数值属性

它是可度量的值,可以是区间标度或者比例标度

离散属性与连续属性

这个...好理解

数据的基本统计描述

中心趋势度量:均值(有结尾均值,即抛弃少数极端数值)、中位数、众数(分单峰、双峰..) 度量数据散布:极差、四分位和四分位极差 四分位: 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。 第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。[1]

图片.png

图片.png

四分位极差: 第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为

图片.png

盒图(boxplot): 摆弄数据离散度的一种图形。它对于显示数据的离散的分布情况效果不错。在软件工程中,Nassi和Shneiderman 提出了一种符合结构化程序设计原则的图形描述工具,叫做盒图,也被称为N-S图。

盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成: 最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。如图。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须(whisker)”。 由于现实数据中总是存在各式各样地“脏数据”,也称为“离群点”,于是为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出,而盒图中的胡须的两级修改成最小观测值与最大观测值。这里有个经验,就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即 1、IQR = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。 2、最小观测值为min = Q1 - 1.5IQR,如果存在离群点小于最小观测值,则胡须下限为最小观测值,离群点单独以点汇出。如果没有比最小观测值小的数,则胡须下限为最小值。 3、最大观测值为max = Q3 + 1.5IQR,如果存在离群点大于最大观测值,则胡须上限为最大观测值,离群点单独以点汇出。如果没有比最大观测值大的数,则胡须上限为最大值。

图片.png

方差和标准差: 标准差计算公式: 假设有一组数值X₁,X₂,X₃,......Xn(皆为实数),其平均值(算术平均值)为μ,公式如图1。 标准差也被称为标准偏差,或者实验标准差,公式为

N%7}$%JWQAGLKT_032QBK}C.png

方差 离散型方差 离散型方差的计算式为:

![Uploading M2]XN1IX%W%@2[P1FAL2W1U_592727.png . . .]

连续型方差 连续型方差的计算式为:

Y%@I0V8U521M~O~_A7OAJRY.png

数据的基本统计描述的图形表示

1、分位数图 对于某序数或数值属性X,设xi(i=1,…,N)是按递增序排序的数据,使得x1是最小的观测值,而xN是最大的。每个观测值xi与一个百分数fi配对,指出大约fi×100%的数据小于值xi。我们说“大约”,因为可能没有一个精确的小数值fi,使得数据的fi×100%小于值xi。注意,百分比0.25对应于四分位数Q1,百分比0.50对应于中位数,而百分比0.75对应于Q3。

图片.png

2、分位数-分位数图

图片.png

3、直方图 4、散点图与数据相关

数据可视化

基于像素的可视化技术

一种可视化一维值的简单方法是使用像素,其中像素的颜色反映该维的值。对于一个m维数据集,基于像素的技术(pixel-oriented technique)在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口中对应位置上的m个像素。像素的颜色反映对应的值。

图片.png

几何投影可视化技术

几何投影技术的首要挑战是设法解决如何在二维显示上可视化高维空间

散点图使用笛卡儿坐标显示二维数据点。使用不同的颜色或形状表示不同的数据点,可以增加第三维。图2.13显示了一个例子,其中X和Y是两个空间属性,而第三维用不同的形状表示。通过这种可视化,我们可以看出“+”和“×”类型的点趋向于一起出现。

图片.png

对于维数超过4的数据集,散点图一般不太有效。散点图矩阵是散点图的一种有用扩充。对于n维数据集,散点图矩阵是二维散点图的n×n网格,提供每个维与所有其他维的可视化。

图片.png

切尔诺夫脸和人物线条画

层次可视化技术

把维度划分成子集,将子集层次可视化

图片.png

度量数据的相似性和相异性

数据矩阵和相异性矩阵 数据矩阵(data matrix)或称对象-属性结构:这种数据结构用关系表的形式或n×p(n个对象×p个属性)矩阵存放n个数据对象:

图片.png

相异性矩阵(dissimilarity matrix)或称对象-对象结构:存放n个对象两两之间的邻近度(proximity),通常用一个n×n矩阵表示:

图片.png

数据矩阵由两种实体或者事物组成,行和列均代表对象,所以被称为二模,而相异性矩阵只包含一类实体,被称为单模

标称属性的邻近性度量

图片.png

其中,m是匹配的数目(即i和j取值相同状态的属性数),而p是刻画对象的属性总数。我们可以通过赋予m较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m的影响。

所以当m=p时两个对象就一样了,因为标称属性完全相同 计算相异性矩阵

图片.png

使得当对象i和j匹配时,d(i,j)=0;当对象不同时,d(i,j)=1。于是,我们得到

图片.png

二元属性的邻近性度量

回忆一下,二元属性只有两种状态:0或1,其中0表示该属性不出现,1表示它出现

计算二元属性相异性 一种方法涉及由给定的二元数据计算相异性矩阵。如果所有的二元都被看做具有相同的权重,则我们得到一个两行两列的列联表——表2.3,其中q是对象i和j都取1的属性数,r是在对象i中取1、在对象j中取0的属性数,s是在对象i中取0、在对象j中取1的属性数,而t是对象i和j都取0的属性数。属性的总数是p,其中p=q+r+s+t。

图片.png

对于对称的相异性,每个状态同等重要,则i和j的相异性为:

图片.png

数值属性的相异性

计算数值属性刻画的对象的相异性的距离度量包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。

最流行的距离度量是欧几里得距离(即,直线或“乌鸦飞行”距离)。令i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离定义为:

图片.png

另一个著名的度量方法是曼哈顿(或城市块)距离,之所以如此命名,是因为它是城市两点之间的街区距离(如,向南2个街区,横过3个街区,共计5个街区)。其定义如下:

图片.png

闵可夫斯基距离: 是欧几里得距离和曼哈顿距离的推广

图片.png

在某些文献中,这种距离又称Lp范数(norm),其中p就是我们的h。我们保留p作为属性数,以便于本章的其余部分一致。)当p=1时,它表示曼哈顿距离(即,L1范数);当p=2表示欧几里得距离(即,L2范数)。

序数属性的邻近性度量

暂时没看懂...

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏iOSer成长记录

iOS-识别图片中二维码

在iOS的CoreImage的Api中,有一个CIDetector的类,Detector的中文翻译有探测器的意思,那么CIDetector是用来做哪些的呢?它可...

1211
来自专栏AI研习社

放弃深度学习?我承认是因为线性代数

深度学习:作为机器学习的一个子域,关注用于模仿大脑功能和结构的算法:人工神经网络。

992
来自专栏C语言及其他语言

【优秀题解】1175:台球碰撞

题号1174,原题见下图: ? 解题思路: 解题思路: 把台球看做质点(台球坐标不变,球桌坐标各个边界向里收缩R,得到新的球桌); 假设没边界,求出小球沿着直...

2826
来自专栏AI科技大本营的专栏

手把手教你自制编程AI:训练2小时,RNN就能写自己的代码

我们都知道,神经网络下围棋能赢柯洁、读X光照片好过医生、就连文本翻译上也快超过人类了……其实在写代码方面,神经网络也丝毫不落下风……用Linux源代码训练2小时...

3977
来自专栏小樱的经验随笔

DFS中的奇偶剪枝学习笔记

奇偶剪枝学习笔记 描述 现假设起点为(sx,sy),终点为(ex,ey),给定t步恰好走到终点, s | ...

2654
来自专栏kangvcar

[face_recognition中文文档] 第4节 Face Recognition API

1662
来自专栏机器之心

教程 | 如何使用TensorFlow和自编码器模型生成手写数字

40611
来自专栏AI研习社

用 Python 分析四年NBA比赛数据,实力最强的球队浮出水面

分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时...

4123

如何实现自然语言处理的集束搜索解码器

自然语言处理任务(例如字幕生成和机器翻译)涉及生成单词序列。

3878
来自专栏大数据挖掘DT机器学习

非监督学习算法:异常检测

什么是异常(outlier)?Hawkins(1980)给出了异常的本质性的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不...

6675

扫码关注云+社区