首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

《数据挖掘:概念与技术》笔记

今日科技

由于“电池门”事件,苹果大幅调低了官方更换电池的价格,因此近期有不少用户前往苹果零售店更换电池,导致很多零售店的电池库存告急,但一位苹果员工在接受 Business Insider 采访时表示,在他们接受的更换电池需求中,只有不到 10% 的用户通过了诊断测试程序,也就是说,大部分前来要求更换电池的手机,其实并不需要更换。

作者简介

走在Data mining 路上的一名探索者,某著名男女失衡断水断电大学汪;Corozon共勉。

本次学习主要是认识数据。

内容简介

数据对象与属性类型

数据的基本统计描述

数据可视化

数据相似性和相异性的度量

正文

数据对象与属性类型

数据集由数据对象组成,一个数据对象代表一个实体(例如顾客,商品等)。数据对象用属性来描述。在数据库中,数据对象也称作数据元组,它的行对应于数据对象,列对应于属性。

什么是属性?属性是一个数据片段,它表示数据对象的一个特征。属性具有值。比如说性别就是一个属性,它具有男/女/其他三个值。在数据库中,我们一般把属性叫做维。那么怎么样确定一个属性的类型?它的类型由该属性可能具有的值得集合决定。

属性类型具有如下分类:

标称属性

例如职业这个属性:教师,程序员,业务员等

二元属性

是特别的标称属性,它只有两个类别:0或1

序数属性

它的值具有有意义的序,但是序之间的差是未知的。例如:爽,很爽,非常爽。你不知道很爽比爽能爽多少。

数值属性

上面三个属性类型都是定性的,只有数值属性是定量的,即它是可度量的量,用整数或者实数表示。数值属性也可以通过将值域划分成有限个有序类别,把数据离散化得到序数属性。

除了以上的划分方式,在机器学习领域开发的分类算法通常把属性分为离散的和连续的。

数据的基本统计描述

了解了数据属性类型后,我们就来看看当数据在数据集的情况吧。

基本统计描述可以用来识别数据的性质,凸显那些数据值应该视为噪声和离群点。(观测值 = 真实数据 +噪声;离群点属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测量之间有明显不同的观测值)

主要有三类基本统计描述:

中心趋势度量

最常用的就是均值,中位数,众数和中列数。其中中列数是数据集最大和最小值得平均数。

度量数据散布

我们用方差、标准差、极差、分位数、四分位数、百分位数和四分位数极差评估数据散布的情况。五数概括可以用盒图表示,他对于识别离群点是有用的。

Q1就对应四分位数的第一个四分位数,他也是百分位数的第一个百分位数。四分位数中,第三个四分位数与第一个四分位数的差值叫做四分位数极差。

(IQR = Q3 - Q1)

对于描述倾斜分布,单个散布数值度量都不是很有用,因此为了使分布形状更完整的概括,我们可以使用五数概括。(最大最小值,四分位数Q1和Q3,中位数)。

盒图很直观的体现了五数概括:

数据基本统计描述的图形表示

包括分位数图、分位数-分位数图、直方图和散点图。前三个是显示一元分布,即一个属性的数据,而散点图是二元分布。

我们这里主要介绍散点图,它是确定两个数值变量之间看上去是否存在联系,模式和趋势的最有效的图形方法之一。分为正相关、负相关、零相关。

数据可视化

这是一个很大的领域,这里不做总结,实践中学习比较好。

数据相似性和相异性的度量

预备知识:在诸如聚类、离群点分析和最近邻分类等数据挖掘应用中,我们需要评估对象之间相互比较的相似和不相似程度。相似性和相异性都称作邻近性,它们是有关联的。

这里介绍两种上述应用的数据结构:数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象对的相异性值)。

数据矩阵:n个数据对象*p个属性

相异性矩阵:存放n个对象两两之间的邻近度,其中d(i,j)是对象i与对象j之间相异性的度量,高度相似或接近时该值为0。

有了预备知识,现在我们来分别计算被前面讲的属性刻画的对象的相异性。

标称属性的邻近性度量:

两个对象i和j之间的相异性

其中m是俩对象取值相同的属性属,p是属性总数。

二元属性的邻近性度量:

若是对称的二元相异性(属性的两个值等权重)

若是非对称的二元相异性,其中负匹配数t认为是不重要的,因此忽略。

数值属性的相异性:

当h = 1时,叫曼哈顿距离,当h = 2时叫欧几里得距离,就是我们平时说的直线距离。

序数属性的邻近性度量:

我们知道,序数属性有顺序但值之间的差是不知的。所以可以令属性可能的状态数为M,这样就有了一个排位:1,...,Mf;我们用Z(if)代替第i个对象的第f个值r(if)

然后再用任意一种数值属性的距离计算公式计算。

混合类型属性的相异性度量:一种比较可行的方法是将不同属性组合在单个相异性矩阵中,在这之前先把所有有意义的属性转换到共同的区间[0.0,1.0]上。

1

END

1

你的关注是我最大的动力

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180121G0ABAK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券