学习
实践
活动
专区
工具
TVP
写文章

​数据科学中 17 种相似性和相异性度量(上)

⓪ L2范数,欧几里得距离 欧几里得轮廓 用于数值属性或特征最常见距离函数是欧几里得距离,其定义在以下公式中: n 维空间中两之间欧几里德距离 这个距离度量具有众所周知特性,例如对称、可微 它等于直角三角形斜边长度。 此外,欧几里得距离是一个度量,因为它满足其标准,如下图所示。 欧几里得距离满足成为度量所有条件 此外,使用该公式计算距离表示每对之间最小距离。 n维空间中两之间平方欧几里得距离 ② L1 范数、城市街区、曼哈顿或出租车距离 曼哈顿轮廓 该指标对于测量给定城市中两条街道之间距离非常有用,可以根据分隔两个不同地方街区数量来测量距离。 它被定义为 n维空间中两个观测值之间距离,如以下公式所示: 其中 P、Q 是两个给定 nD ,p 代表 Minkowski 度量。 例如,它可用于衡量两个给定文档之间相似性。它还可用于根据消息长度识别垃圾邮件。 余弦距离可以按如下方式测量: 其中 P 和 Q 代表两个给定

38740

数据挖掘之认识数据学习笔记相关术语熟悉

这里有个经验,就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即 1、IQR = Q3-Q1,即上四分位数与下四分位数之间差,也就是盒子长度。 2、最小观测值为min = Q1 - 1.5IQR,如果存在离群小于最小观测值,则胡须下限为最小观测值,离群单独以汇出。如果没有比最小观测值小数,则胡须下限为最小值。 图片.png 数值属性相异性 计算数值属性刻画对象相异性距离度量包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。 最流行距离度量是欧几里得距离(即,直线或“乌鸦飞行”距离)。 令i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个被p个数值属性描述对象。对象i和j之间欧几里得距离定义为: ? 图片.png 另一个著名度量方法是曼哈顿(或城市块)距离,之所以如此命名,是因为它是城市两之间街区距离(如,向南2个街区,横过3个街区,共计5个街区)。其定义如下: ?

39860
  • 广告
    关闭

    热门业务场景教学

    个人网站、项目部署、开发环境、游戏服务器、图床、渲染训练等免费搭建教程,多款云服务器20元起。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    MATLAB数字图像处理学习笔记

    我们都知道一幅图片就相当于一个二维数组,可以用一个矩阵来表示,而MATLAB可以说就是为矩阵运算而生,所以学习图像处理,学习MATLAB势在必行!  一、 MATLAB基础知识 1. imshow(f, [low high]),这里会将所有小于或等于low值都显示为黑色,所有大于或等于high值都显示为白色。介于low和high之间值将以默认级数显示为中等亮度值。    最后imshow(f,[ ])可以将变量low设置为数组f最小值,将变量high设置为数组f最大值。函数imshow这一形式可以显示一幅动态范围较小图像既有正值又有负值图像。    函数pixval经常用来交互地显示单个像素亮度值。该函数可以显示覆盖在图像上光标。当光标随着鼠标在图像上移动时,光标所在位置坐标和该亮度值会在窗口下方显示出来。 处理彩色图像时,红、绿、蓝分量坐标也会显示出来。若按住鼠标左键不放,则pixval将显示光标初始位置和当前位置间欧几里得距离。 使用figure函数,可以同时显示两幅图片 ?

    73950

    Nat. Methods | 基于几何深度学习解密蛋白分子表面的相互作用指纹

    MaSIF利用几何深度学习来学习蛋白质分子表面中相互作用指纹。分子表面数据是在测地空间中描述,这意味着两之间距离对应于沿着表面的两之间“行走”距离。 MaSIF框架对于没有共同进化祖先蛋白质之间寻找相似相互作用指纹生物学家很有用。MaSIF代表了对欧几里得结构表示学习偏离,并使人们认识到蛋白质功能和设计重要结构特征。 相对于小块中心(图1c),这些坐标将有关特征之间空间关系信息添加到学习方法中。 3.3.1测地距离 在连续表面上,测地线是在表面上“行走”时连接两个最短路径(曲线)。 两之间测地线距离是两之间测地线长度。在网格上,测地线是两个顶点之间最短多段线。在图上,测地线是连接两个顶点相邻图边集合。网格上测地线计算可以使用快速前进方法精确地或近似地计算。 对于每对测量了MaSIFsearch指纹描述符距离;3D空间中欧几里得距离及其法线之间积。研究者网络输入特征是:1 /(描述符距离)、1 /(欧几里德距离)和法线积。

    50150

    最接近原点K个

    最接近原点K个 我们有一个由平面上组成列表points。需要从中找出K个距离原点(0, 0)最近。 (这里,平面上两之间距离是欧几里德距离。) 你可以按任何顺序返回答案。 除了点坐标的顺序之外,答案确保是唯一。 示例 输入:points = [[1,3],[-2,2]], K = 1 输出:[[-2,2]] 解释: (1, 3) 和原点之间距离为 sqrt(10), (-2, 2) 和原点之间距离为 sqrt 个最大最小情况下使用大小顶堆效率会更高。 首先定义n为数量,当K取值大于等于数量直接将原数组返回即可,之后定义排序,将a与b欧几里得距离平方计算出并根据此值进行比较,排序结束后直接使用数组slice方法对数组进行切片取出前K个值即可

    23420

    人工智能AI(3):线性代数之向量和矩阵范数

    在实数域中,数大小和两个之间距离是通过绝对值来度量。在解析几何中,向量大小和两个向量之差大小是“长度”和“距离概念来度量。 2-范数:,Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值平方和再开方,matlab调用函数norm(x, 2)。 ∞-范数:,即所有向量元素绝对值中最大值,matlab调用函数norm(x, inf)。 -∞-范数:,即所有向量元素绝对值中最小值,matlab调用函数norm(x, -inf)。 P-范数:,即向量元素绝对值p次方和1/p次幂,matlab调用函数norm(x, p)。 2-范数:,谱范数,即A'A矩阵最大特征值开平方。matlab调用函数norm(x, 2)。

    1.1K80

    【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现

    动态时间扭曲(DTW)是基于距离方法一个示例。 图 — 基于距离方法 距离指标 在时间序列分类中,我们需要计算两个序列之间距离,同时牢记每个序列内样本之间时间关系和依赖性。 选择正确指标是这种方法基础。 欧几里得距离 让我们开始考虑常见欧几里得距离。 鉴于时间序列分类,欧几里得距离是不合适,因为即使它保留了时间顺序,它也以逐点方式测量距离。 DTW通过局部拉伸和压缩,找出两个数字序列数据最佳匹配,同时也可以计算这些序列之间距离。 DTW是干什么? 全部类似距离之和做为规整路径距离,用规整路径距离来衡量两个时间序列类似性。规整路径距离越小,类似度越高。 ,bn},维度m>n 然后用欧式距离计算出每序列每两之间距离,D(ai,bj) 其中1≤i≤m,1≤j≤n    画出下表:  接下来就是根据上图将最短路径找出来。

    15520

    9个数据科学中常见距离度量总结以及优缺点概述

    我们从最常见距离度量开始,即欧几里得距离。最好将距离量度解释为连接两个线段长度。 该公式非常简单,因为使用勾股定理从这些笛卡尔坐标计算距离。 ? 曼哈顿距离是指两个矢量之间距离,如果它们只能移动直角。在计算距离时不涉及对角线移动。 ? 缺点 尽管曼哈顿距离在高维数据中似乎可以工作,但它比欧几里得距离更不直观,尤其是在高维数据中使用时。 用例 当数据集具有离散和/或二进制属性时,Manhattan似乎工作得很好,因为它考虑了在这些属性值中实际可以采用路径。以欧几里得距离为例,它会在两个向量之间形成一条直线,但实际上这是不可能。 同样,它也可以用于文本相似度分析,以衡量文档之间选词重叠程度。因此,它可以用来比较模式集。 半正矢距离(haversine) ? Haversine距离是指球面上两个之间经度和纬度。 它与欧几里得距离非常相似,因为它可以计算两之间最短线。主要区别在于不可能有直线,因为这里假设是两个都在一个球面上。 ? 缺点 这种距离测量一个缺点是,假定这些位于一个球体上。

    39710

    从单词嵌入到文档距离 :WMD一种有效文档分类方法

    使用给定预训练单词嵌入,可以通过计算“一个文档嵌入单词需要“移动”以到达另一文档嵌入单词所需最小距离”来用语义含义来度量文档之间差异。 通过调整T中值,可以获得两个文档之间语义距离距离也是将所有单词从一个文档移动到另一个文档所需最小累积成本。约束和下界近似 最低累计成本有两个限制,即 ? 对于文档A中任何单词i,文档B中任何单词j 总的来说,受约束最小累积成本计算复杂度为O(p³logp),其中p是文档中唯一单词数量。 Word centroid distance(WCD) 通过使用三角不等式,可以证明累积成本始终大于或等于由单词嵌入平均值加权文档向量之间欧几里得距离。 如果删除一个约束,则累积成本最佳解决方案是将一个文档中每个单词都移动到另一个文档中最相似的单词上。这意味着成本最小化问题变成了在嵌入空间中找到两个单词嵌入最小欧几里得距离

    31530

    Python可视化数据分析04、NumPy库使用

    subok:默认返回一个与基类类型一致数组。 ndmin:指定生成数组最小维度。 ptp()函数:计算数组中元素最大值与最小差(最大值-最小值)。 median()函数:用于计算数组中元素中位数(中值)。 mean()函数:返回数组中元素算术平均值。 ()函数用于计算两之间距离 在数学中,欧几里得距离欧几里得度量是欧几里得空间中两间“普通”(即直线)距离。 使用这个距离,欧氏空间成为度量空间。相关联范数称为欧几里得范数。较早文献称之为毕达哥拉斯度量。 x1 = np.array([[1, 2]]) x2 = np.array([[4, 5]]) # 通过cdist函数,计算两个之间距离·欧氏距离 distance = cdist(x1, x2

    9440

    一图看遍9种距离度量,图文并茂,详述应用场景!

    我们从最常见距离度量开始,即欧几里得距离。它是一种距离度量,最好解释为连接两线段长度。 这个公式相当简单,因为距离是从这些笛卡尔坐标用勾股定理计算出来。 ? 曼哈顿距离是指两个矢量之间距离,如果它们只能移动直角。在计算距离时不涉及对角线移动。 ? 缺点 尽管曼哈顿距离在高维数据中似乎可以工作,但它比欧几里得距离更不直观,尤其是在高维数据中使用时。 用例 当数据集具有离散和/或二进制属性时,Manhattan似乎工作得很好,因为它考虑了在这些属性值中实际可以采用路径。以欧几里得距离为例,它会在两个向量之间形成一条直线,但实际上这是不可能。 切比雪夫距离定义为两个向量在任意坐标维度上最大差值。换句话说,它就是沿着一个轴最大距离。由于其本质,它通常被称为棋盘距离,因为国王从一个方格到另一个方格最小步数等于切比雪夫距离。 ? 它与欧几里得距离非常相似,因为它计算两之间最短直线。主要区别是不可能是直线,因为这里假设是两点在球面上。 ? 缺点 这种距离测量一个缺点是假定这些点在球面上。

    83810

    全面归纳距离和相似度方法(7种)

    Lp范数 向量范数可以简单形象理解为向量长度,或者向量到零距离,或者相应两个之间距离。 闵氏距离也是Lp范数(如p==2为常用L2范数正则化)一般化定义。 (样本间最大与最小欧氏距离之间相对差距就趋近于0),也就是维度灾难问题,如下式结论: 对于维度灾难问题,常用有PCA方法进行降维计算。 六、时间系列、图结构距离 DTW (Dynamic Time Warping) 距离 DTW 距离用于衡量两个序列之间相似性,适用于不同长度、不同节奏时间序列。 (具体可参考[5]) 图结构距离结构相似度计算,有图同构、最大共同子图、图编辑距离、Graph Kernel 、图嵌入计算距离等方法(具体可参考[4][6])。 基于信息论推导一些距离度量学习算法,比如ITML和MCML等通常是使用距离度量矩阵定义一个分布,然后推导出最小两个分布KL距离或者Jeffery距离等等。

    16350

    ​数据科学中 17 种相似性和相异性度量(下)

    ⑨ 马氏距离 马氏距离Mahalanobis是一种主要用于多变量统计测试度量指标,其中欧氏距离无法给出观测值之间实际距离。它测量数据点离分布有多远。 来自平均值具有相同 ED 值两个。 然后我们可以使用欧几里得距离,它给出了与前两个数据点之间平均值不同距离。这就是马哈拉诺比斯指标的作用。 两个物体 P 和 Q 之间马氏距离。 其中C表示属性或特征之间协方差矩阵。 ⑩ 标准化欧几里得距离 标准化或归一化是在构建机器学习模型时在预处理阶段使用一种技术。该数据集在特征最小和最大范围之间存在很大差异。 为了回答这个问题,我们需要比较两个公式每一项。 Jaccard 和余弦公式 这两个公式之间唯一区别是分母项。 Pydist2 pydist2是一个python包,1:1代码采用pdist[7]和pdist2[8] Matlab函数,用于计算观测之间距离

    37920

    距离和相似性度量在机器学习中使用统计

    我们知道平面上到原点欧几里得距离(p = 2)为 1 所组成形状是一个圆,当 p 取其他数值时候呢? 消除不同维度之间相关性和尺度不同,只需要对样本 x 做如下处理: 。处理之后欧几里得距离就是原样本马氏距离:为了书写方便,这里求马氏距离平方): ? 向量和信号都是离散值,如果是连续函数值,比如求区间[-1, 1] 两个函数之间相似度,同样也可以得到(系数)组分,这种方法可以应用于多项式逼近连续函数,也可以用到连续函数逼近离散样本最小二乘问题 分类数据点间距离 汉明距离(Hamming distance)是指,两个等长字符串s1与s2之间汉明距离定义为将其中一个变为另外一个所需要作最小替换次数。 概率分布之间距离 前面我们谈论都是两个数值之间距离,实际上两个概率分布之间距离是可以测量

    91330

    【陆勤践行】机器学习中距离和相似性度量方法

    消除不同维度之间相关性和尺度不同,只需要对样本 x 做如下处理: ? 。处理之后欧几里得距离就是原样本马氏距离:为了书写方便,这里求马氏距离平方): ? 向量和信号都是离散值,如果是连续函数值,比如求区间[-1, 1] 两个函数之间相似度,同样也可以得到(系数)组分,这种方法可以应用于多项式逼近连续函数,也可以用到连续函数逼近离散样本最小二乘问题 分类数据点间距离 汉明距离(Hamming distance)是指,两个等长字符串s1与s2之间汉明距离定义为将其中一个变为另外一个所需要作最小替换次数。举个维基百科上例子: ? 序列之间距离 上一小节我们知道,汉明距离可以度量两个长度相同字符串之间相似度,如果要比较两个不同长度字符串,不仅要进行替换,而且要进行插入与删除运算,在这种场合下,通常使用更加复杂编辑距离( 概率分布之间距离 前面我们谈论都是两个数值之间距离,实际上两个概率分布之间距离是可以测量

    63180

    「国王-男人+女人=皇后」背后词类比原理究竟为何?| ACL 2019

    ,S 中所有的单词向量共面。 解释内积 为了明确解释上述条件意义,我们需要能够解释两个单词向量之间内积(即积)。 然而,现有的文献只告诉我们如何解释一个单词和一个上下文向量之间内积。 解释欧几里得距离 存在 ? ,使得对于任意两个在无噪声 SGNS 或 GloVe 空间中单词 x 和 y,有: ? 。 平方后两个单词之间欧几里得距离是他们负 csPMI 递减线性函数。 这是很直观:通过 csPMI 进行度量时,在训练语料库中越相似的两个单词词向量之间距离就越小。尽管如此,据我们所知,这还是第一次从信息论角度解释单词向量空间中欧几里得距离。 接着,我们试图使用在维基百科数据上训练 SGNS 向量,通过传统最小化余弦距离方式,对这些类比进行求解。 ? 在上面的表格中,我们可以看到: 1. 正如预期那样,横纵坐标之间有一个较强正相关关系(皮尔逊相关系数 r=0.502);两个单词越相似(正如 csPMI 定义那样),二者词向量之间欧几里得距离越小。

    67420

    扫码关注腾讯云开发者

    领取腾讯云代金券