首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

距离 (哈拉诺比斯距离) (Mahalanobis distance)

距离(Mahalanobis distance)是由印度统计学家哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离。...它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系,本文介绍距离相关内容。...距离 度量样本距离某个分布的距离,先将样本与分布标准化到多维标准正态分布后度量欧式距离 思想 将变量按照主成分进行旋转,消除维度间的相关性 对向量和分布进行标准化,让各个维度同为标准正态分布...我们将去相关化、0均值化、标准化过后的数据记为Z: image.png 而距离就是度量纠正过后的向量Z到分布中心(原点)的欧式距离: image.png 参考资料 https...://baike.baidu.com/item/距离/8927833?

1.3K21
您找到你想要的搜索结果了吗?
是的
没有找到

详解距离中的协方差矩阵计算(超详细)

二、距离(Mahalanobis Distance) 1.定义 距离(Mahalanobis distance)是由印度统计学家哈拉诺比斯(P. C....对于一个均值为μ,协方差矩阵为Σ的多变量行向量x(设x有m个分量,且每个分量都是n维列向量),其距离矩阵为: 其中 可以发现,(x-μ)T是m×n矩阵,Σ是n×n矩阵,(x-μ)...是n×m矩阵,所以DM(x)是m×m矩阵,衡量的是向量x不同分量两两之间的距离。...3个维度的属性),(x-y)是3×1矩阵,所以d(x,y)是一个1×1的数值,衡量的是x与y之间的距离。...3.两个样本点的距离计算示例: Matlab计算协方差矩阵验算(矩阵a的列代表属性,行代表样本点): 得到协方差矩阵后,我们就可以计算出v和x之间的距离了: Matlab验算:

2.3K20

Machine Learning -- 11种相似性度量方法(总结版)

闵可夫斯基距离 5. 标准化欧氏距离 6. 距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1....因此用闵距离来衡量这些样本间的相似度很有问题。 简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。...距离(Mahalanobis Distance) (1)距离定义 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为: ?...若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。 (2)距离的优缺点:量纲无关,排除变量之间的相关性的干扰。...(3) Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的距离 X = [1 2; 1 3; 2 2; 3 1] Y = pdist(X,'mahalanobis') 结果

5.2K70

计算向量间相似度的常用方法

简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲 (scale),也就是“单位”当作相同的看待了;(2)没有考虑各个分量的分布(期望、方差等)可能是不同的。...标准欧氏距离计算方法是先将各个分量都先进行标准化,再求得标准化后的欧氏距离。 ?...1.6 距离 (Mahalanobis Distance) 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到μ的距离表示为: ?...而其中向量Xi与Xj之间的距离定义为: ? 若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则距离就是欧式距离;若协方差矩阵是对角矩阵,则距离就是标准化欧式距离。...1.7 兰距离 (Lance Williams Distance) 兰距离计算方法如下: ? 2.

29K41

机器学习中应用到的各种距离介绍(附上Matlab代码)

闵可夫斯基距离 5.标准化欧氏距离 6.距离 7.夹角余弦 8.汉明距离 9.杰卡德距离& 杰卡德相似系数 10.相关系数& 相关距离 11.信息熵 1....因此用闵距离来衡量这些样本间的相似度很有问题。 简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。...距离(MahalanobisDistance) (1)距离定义 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为: ?...若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。 (2)距离的优缺点:量纲无关,排除变量之间的相关性的干扰。...(3)Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的距离 X = [1 2; 1 3; 2 2; 3 1] Y = pdist(X,'mahalanobis')

4.2K30

机器学习的相似性度量

闵可夫斯基距离 5. 标准化欧氏距离 6. 距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1....因此用闵距离来衡量这些样本间的相似度很有问题。 简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。...距离(Mahalanobis Distance) (1)距离定义 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为:...若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。 (2)距离的优缺点:量纲无关,排除变量之间的相关性的干扰。...(3) Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的距离 X = [1 2; 1 3; 2 2; 3 1] Y = pdist(X,'mahalanobis') 结果

1.4K80

在机器学习中用到了各式各样的距离

切比雪夫距离 4. 闵可夫斯基距离 5.标准化欧氏距离 6.距离 7.夹角余弦 8.汉明距离 9.杰卡德距离& 杰卡德相似系数 10.相关系数& 相关距离 11.信息熵 1....因此用闵距离来衡量这些样本间的相似度很有问题。 简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。...距离(MahalanobisDistance) (1)距离定义 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为: ?...若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。 (2)距离的优缺点:量纲无关,排除变量之间的相关性的干扰。...(3)Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的距离 X = [1 2; 1 3; 2 2; 3 1] Y = pdist(X,'mahalanobis') 结果

1K60

机器学习中的相似性度量总结

闵可夫斯基距离 5. 标准化欧氏距离 6. 距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1....因此用闵距离来衡量这些样本间的相似度很有问题。 简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。...距离(Mahalanobis Distance) ---- (1)距离定义 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为: ?...若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。 (2)距离的优缺点:量纲无关,排除变量之间的相关性的干扰。...(3) Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的距离 X = [1 2; 1 3; 2 2; 3 1] Y = pdist(X,'mahalanobis') 结果

1.5K20

机器学习中的相似性度量总结

简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布(期望,方差等)可能是不同的。...距离(Mahalanobis Distance) ---- (1)距离定义 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为: 而其中向量Xi与...Xj之间的距离定义为: 若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了: 也就是欧氏距离了。...若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。 (2)距离的优缺点:量纲无关,排除变量之间的相关性的干扰。...(3) Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的距离 X = [1 2; 1 3; 2 2; 3 1] Y = pdist(X,'mahalanobis') 结果

62520

度量学习总结(二) | 如何使用度量学习处理 高维数据?

它提供了基于对数行列式矩阵发散的框架,该框架能够有效地优化结构化的、低参数的距离距离是一类具有良好泛化性质的距离函数。距离推广了k近邻分类器等算法常用的标准平方欧氏距离。...在计算上,我们的算法是基于信息论度量学习方法。该问题被描述为学习满足给定约束集的“最大熵”距离问题。在数学上,这导致了一个具有矩阵值目标函数的凸规划问题,称为对数行列式(LogDet)散度。...此外,ITML假设由正定矩阵A0参数化的基线距离函数。...考虑两点x和y的潜在因素之间的欧氏距离: 其中: 低阶距离也可以在O(dk)时间内有效地计算,因为二维实例x和y之间的距离可以通过首先通过计算R T x和R T y将它们映射到低维空间来计算,然后在低维点之间计算标准平方欧几里德距离...注意,后一步可能不需要,因为如下所示,可以在O(dk)时间内计算两点之间的低阶距离,而无需显式计算A。 【总结】:本文介绍了度量学习如何处理高维数据问题。

1.6K20

python 各类距离公式实现

距离(Mahalanobis Distance) (1)距离定义 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为: ?...: 1)距离计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同...; 2)在计算距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。...4)在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的,而所有样本点出现3)中所描述的情况是很少出现的,所以在绝大多数情况下,距离是可以顺利计算的,但是距离计算是不稳定的,不稳定的来源是协方差矩阵...优点:它不受量纲的影响,两点之间的距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的距离相同。距离还可以排除变量之间的相关性的干扰。

7.5K20

博客 | 度量学习总结(二) | 如何使用度量学习处理 高维数据?

它提供了基于对数行列式矩阵发散的框架,该框架能够有效地优化结构化的、低参数的距离距离是一类具有良好泛化性质的距离函数。距离推广了k近邻分类器等算法常用的标准平方欧氏距离。...然而,在高维环境中,由于距离函数与d×d矩阵的二次依赖性,学习和评估距离函数的问题变得非常棘手。这种二次依赖性不仅影响训练和测试的运行时间,而且对估计二次参数的数量提出了巨大的挑战。 ?...在计算上,我们的算法是基于信息论度量学习方法。该问题被描述为学习满足给定约束集的“最大熵”距离问题。在数学上,这导致了一个具有矩阵值目标函数的凸规划问题,称为对数行列式(LogDet)散度。...低阶距离也可以在O(dk)时间内有效地计算,因为二维实例x和y之间的距离可以通过首先通过计算R T x和R T y将它们映射到低维空间来计算,然后在低维点之间计算标准平方欧几里德距离b。...注意,后一步可能不需要,因为如下所示,可以在O(dk)时间内计算两点之间的低阶距离,而无需显式计算A。 ? 【总结】:本文介绍了度量学习如何处理高维数据问题。

1K20

【译文】30分钟让你分清几种距离

若学过线性代数的读者便可以知道,向量加减就是向量元素对应加减,(即括号中元素)上面的式子可以化成向量之间的计算: ? 2.曼哈顿距离: 我们又称为城市街区距离,至于为什么,你看完下面的就知道了....因此用闵距离来衡量这些样本间的相似度很有问题。 在数学上说,闵距离的缺点主要有两个: (1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。...(2)没有考虑各个分量的分布(期望,方差等)可能是不同的。 5.距离 (1)距离定义 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为: ?...而其中向量Xi与Xj之间的距离定义为: ? 若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了如下,也就是欧氏距离了。 ? 若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。...(2)距离的优缺点:量纲无关,排除变量之间的相关性的干扰 6.汉明距离 (1)汉明距离的定义 两个等长字符串之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。

1K90

机器学习中“距离与相似度”计算汇总

写在前面 涵盖了常用到的距离与相似度计算方式,其中包括欧几里得距离、标准化欧几里得距离、曼哈顿距离、汉明距离、切比雪夫距离距离、兰距离、闵科夫斯基距离、编辑距离、余弦相似度、杰卡德相似度、Dice...距离(Mahalanobis Distance)是由印度统计学家哈拉诺比斯(P....距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量x与y的差异程度: ? 如果协方差矩阵为单位矩阵,距离就简化为欧氏距离;如果协方差矩阵为对角阵,其也可称为正规化的欧氏距离。 ?...,可以得到它的几个特点如下: 两点之间的距离与原始数据的测量单位无关(不受量纲的影响) 标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的距离相同 可以排除变量之间的相关性的干扰...通常兰距离对于接近于0(大于等于0)的值的变化非常敏感。与距离一样,兰距离对数据的量纲不敏感。不过兰距离假定变量之间相互独立,没有考虑变量之间的相关性。

3.1K10

ML中相似性度量和距离计算&Python实现

本文对常用的相似性度量进行了一个总结 欧氏距离 曼哈顿距离 切比雪夫距离 闵可夫斯基距离 距离 夹角余弦 汉明距离 杰卡德距离 & 杰卡德相似系数 相关系数 & 相关距离 信息熵 1....简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布(期望,方差等)可能是不同的。...距离(Mahalanobis Distance) 有M个样本向量​,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为 而其中向量​与​之间的距离定义为:...若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离距离的优缺点:量纲(scale)无关,排除变量之间的相关性的干扰。...#方法一:根据公式求解 S = np.cov(X) #两个维度之间协方差矩阵 SI = np.linalg.inv(S) #协方差矩阵的逆矩阵 #距离计算两个样本之间的距离

6.4K170

R语言:计算各种距离

本文目录: 闵可夫斯基距离 欧氏距离 曼哈顿距离 切比雪夫距离 标准化欧式距离 距离 夹角余弦 汉明距离 杰卡德距离&杰卡德相似系数 相关系数&相关距离 信息熵 kl散度(Kullback-Leible...因此用闵距离来衡量这些样本间的相似度很有问题。 简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。...(Mahalanobis Distance) (1)距离定义 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量Xi到u的距离表示为: d(...若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。 (2)距离的优缺点:量纲无关,排除变量之间的相关性的干扰。...dij=∑k=1n|xik−xjk|xik+xjk d_{ij} = \sum_{k=1} ^{n} \frac{|x_{ik} - x_{jk}|}{x_{ik} + x_{jk}} 与距离一样

7.2K20

ML中相似性度量和距离计算&Python实现

本文对常用的相似性度量进行了一个总结 欧氏距离 曼哈顿距离 切比雪夫距离 闵可夫斯基距离 距离 夹角余弦 汉明距离 杰卡德距离 & 杰卡德相似系数 相关系数 & 相关距离 信息熵 1....简单说来,闵距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布(期望,方差等)可能是不同的。...距离(Mahalanobis Distance) 有M个样本向量X_1~X_m,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的距离表示为 D(X)=\sqrt{(X-\mu)^TS^{...若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离距离的优缺点:量纲(scale)无关,排除变量之间的相关性的干扰。...:根据公式求解 S = np.cov(X) #两个维度之间协方差矩阵 SI = np.linalg.inv(S) #协方差矩阵的逆矩阵 #距离计算两个样本之间的距离,此处共有

2.9K170

机器学习算法之K-近邻算法

1.2 欧式距离 两个样本的距离可以通过如下公式计算,又叫欧式距离 。...a与b的闵距离(无论是曼哈顿距离、欧氏距离或切比雪夫距离)等于a与c的闵距离。但实际上身高的10cm并不能和体重的10kg划等号。...2.闵距离的缺点: (1)将各个分量的量纲(scale),也就是“单位”相同的看待了; (2)未考虑各个分量的分布(期望,方差等)可能是不同的。...举例: X=[[1,1],[2,2],[3,3],[4,4]];(假设两个分量的标准差分别为0.5和1) 经计算得: d = 2.2361 4.4721 6.7082 2.2361...另外还有一些距离,但是并不需要详细学习:杰卡德距离(Jaccard Distance)、距离(Mahalanobis Distance) 4.k 值的选择 K值过小: 容易受到异常点的影响 k值过大

59130

相似度与距离算法种类总结

欧式距离的标准化(Standardized Euclidean distance) 标准欧氏距离的思路:现将各个维度的数据进行标准化:标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差...,然后计算欧式距离: 2、明可夫斯基距离(Minkowski Distance) 明距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。...扩展到多维空间,其实切比雪夫距离就是当p趋向于无穷大时的明距离: 5、哈拉诺比斯距离(Mahalanobis Distance) 既然欧几里得距离无法忽略指标度量的差异,所以在使用欧氏距离之前需要对底层指标进行数据的标准化...,而基于各指标维度进行标准化后再使用欧氏距离就衍生出来另外一个距离度量——哈拉诺比斯距离(Mahalanobis Distance),简称距离。...场景:在海量物品的相似度计算中可用simHash对物品压缩成字符串,然后使用海明距离计算物品间的距离 二、相似度度量(9种) 相似度度量(Similarity),即计算个体间的相似程度,与距离度量相反

1.1K40
领券