开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用于聚类非正态分布数据的距离度量

距离度量是用于衡量两个样本之间相似性或差异性的方法。在聚类非正态分布数据时，常用的距离度量方法有以下几种：

欧氏距离（Euclidean Distance）：欧氏距离是最常用的距离度量方法，它衡量两个样本之间的直线距离。对于非正态分布数据，欧氏距离可能会受到异常值的影响。
曼哈顿距离（Manhattan Distance）：曼哈顿距离是衡量两个样本之间的城市街区距离，即两点之间沿坐标轴的距离总和。曼哈顿距离对异常值不敏感，适用于非正态分布数据。
切比雪夫距离（Chebyshev Distance）：切比雪夫距离是衡量两个样本之间的最大坐标差值，即两点之间在各个坐标轴上的最大差值。切比雪夫距离也对异常值不敏感。
闵可夫斯基距离（Minkowski Distance）：闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广，可以通过调整参数来控制距离的计算方式。
马氏距离（Mahalanobis Distance）：马氏距离考虑了各个特征之间的相关性，可以有效地处理非正态分布数据。它通过计算样本与样本均值之间的距离，同时考虑了协方差矩阵的影响。

对于聚类非正态分布数据，可以根据具体的数据特点选择合适的距离度量方法。在实际应用中，可以使用腾讯云的人工智能服务中的机器学习平台（https://cloud.tencent.com/product/tiia）来进行数据聚类分析。该平台提供了丰富的机器学习算法和工具，可以帮助用户快速构建和训练模型，并进行数据聚类分析。

相关搜索:生成用于聚类的距离矩阵基于成对距离的聚类组使用哪个聚类距离度量来查找相关性最强的项目组使用具有层次聚类的距离矩阵查找聚类的数量最长距离的层次聚类算法 H2o KMEANS聚类中点与聚类质心的距离基于度量对列表中的元素进行聚类聚类内聚类，即多类聚类的数据表的嵌套聚类如何使用KMEANS计算每个记录的聚类距离？用于像素聚类的高斯混合模型寻找用于NLP聚类/主题建模的好数据集 1维数据的聚类 K-means聚类不能找到数据中的所有聚类如何利用分类数据找到聚类算法的最佳聚类个数如何计算用于聚类的基尼系数用于基于模型的聚类的轮廓图不同链接的不同距离矩阵在层次聚类中的应用使用标签数据的KMeans聚类使用聚类数据的Sklearn回归在TensorFlow中计算n个数据点和k个聚类之间的距离

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

聚类分析并不靠谱

相同的聚类分析中，距离的定义方式不同，得到的聚类结果也会不同，实际的数据分析工作中，为了便于解释结果，我更喜欢使用相似程度去定义聚类分析中的距离。

01

数据挖掘之异常检测

异常检测的目标是发现与大部分其他对象不同的对象。通常，异常对象被称为离群点，因为在数据的散布图中，他们远离其他数据点。异常检测也称为偏差检测、例外挖掘。

02

《机器学习》-- 第九章聚类

聚类是一种经典的无监督学习(unsupervised learning)方法，无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身潜在的结构与规律，即不依赖于训练数据集的类标记信息。

01

机器学习中的目标函数总结

几乎所有的机器学习算法都归结为求解最优化问题。有监督学习算法在训练时通过优化一个目标函数而得到模型，然后用模型进行预测。无监督学习算法通常通过优化一个目标函数完成数据降维或聚类。强化学习算法在训练时通过最大化奖励值得到策略函数，然后用策略函数确定每种状态下要执行的动作。多任务学习、半监督学习的核心步骤之一也是构造目标函数。一旦目标函数确定，剩下的是求解最优化问题，这在数学上通常有成熟的解决方案。因此目标函数的构造是机器学习中的中心任务。

02

机器学习算法地图2021版

为了帮助大家理清机器学习的知识脉络，建立整体的知识结构，2018年SIGAI推出过机器学习算法地图，纸质版和电子版的阅读量超过10万。两年之后，我们对算法地图进行了优化升级，使得它的结构更为合理清晰，内容更为简洁。下面先看算法地图2021版的整图

02

【非监督学习 | 聚类】聚类算法类别大全 & 距离度量单位大全

🙋‍♂️声明：本人目前大学就读于大二，研究兴趣方向人工智能&硬件（虽然硬件还没开始玩，但一直很感兴趣！希望大佬带带）

01

使用生成式对抗网络从随机噪声中创建数据

由于最近几周工作紧以及该文涉及机器学习，翻译有点水的厉害。推荐不要在这浪费时间还是直接看英文原文的好。

02

【非监督学习 | 聚类】聚类算法类别大全 & 距离度量单位大全

【深度学习 | 核心概念】那些深度学习路上必经的核心概念，确定不来看看？（一）作者：计算机魔术师版本： 1.0 （ 2023.8.27 ）

01

【非监督学习 | 聚类】聚类算法类别大全 & 距离度量单位大全

🙋‍♂️声明：本人目前大学就读于大二，研究兴趣方向人工智能&硬件（虽然硬件还没开始玩，但一直很感兴趣！希望大佬带带）

01

机器学习中的关键距离度量及其应用

在当今的数据驱动世界中，机器学习算法扮演着至关重要的角色，它们在图像分类、面部识别、在线内容审核、零售目录优化和推荐系统等多个领域发挥着重要作用。这些算法的核心在于它们能够识别和利用数据之间的相似性。而实现这一点的关键，就在于选择合适的距离度量。

01

漫谈特征缩放

说起"炼丹"最耗时的几件事,首先就能想到的就是数据清洗,特征工程,还有调参.特征工程真的是老生常谈了,但是特征工程又是最重要的一环,这一步做不好怎么调参也没用.在特征工程中,做特征缩放是非常重要的,如下图所示:

03

数据分析师必须掌握5种常用聚类算法

给定一组数据点，我们可以使用聚类算法将每个数据点分类到一个特定的簇中。理论上，属于同一类的数据点应具有相似的属性或特征，而不同类中的数据点应具有差异很大的属性或特征。

02

全面归纳距离和相似度方法(7种)

距离(distance，差异程度)、相似度(similarity，相似程度)方法可以看作是以某种的距离函数计算元素间的距离，这些方法作为机器学习的基础概念，广泛应用于如：Kmeans聚类、协同过滤推荐算法、相似度算法、MSE损失函数、正则化范数等等。本文对常用的距离计算方法进行归纳以及解析，分为以下几类展开：

05

数据科学家必须要掌握的5种聚类算法

编译 | AI科技大本营参与 | 刘畅编辑 | 明明【AI科技大本营导读】聚类是一种将数据点按一定规则分群的机器学习技术。给定一组数据点，我们可以使用聚类算法将每个数据点分类到一个特定的簇中。理论上，属于同一类的数据点应具有相似的属性或特征，而不同类中的数据点应具有差异很大的属性或特征。聚类属于无监督学习中的一种方法，也是一种在许多领域中用于统计数据分析的常用技术。在数据科学中，我们可以使用聚类分析，来获得一些有价值的信息。其手段是在应用聚类算法时，查看数据点会落入哪些类。现在，我

05

马氏距离 (马哈拉诺比斯距离) (Mahalanobis distance)

马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的，表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是，它考虑到各种特性之间的联系，本文介绍马氏距离相关内容。欧氏距离的缺点距离度量在各个学科中有着广泛用途，当数据表示为向量\overrightarrow{\mathbf{x} }=\left(x_{1}, x_{2}, \cdots, x_{n}\right)^{T}和\overr

02

用scikit-learn学习DBSCAN聚类

在DBSCAN密度聚类算法中，我们对DBSCAN聚类算法的原理做了总结，本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结，重点讲述参数的意义和需要调参的参数。

03

时序数据特征提取_时间序列提取一维特征

特征提取在提高分类的准确性中起着非常关键的作用. 对时序特征提取的方法进行归纳分类, 将有利于对特征提取整体性, 全面性的认识. 回顾现有的时间序列中特征提取的方法, 将其总结为四大类, 它们分别是基于基本统计方法的特征提取、基于模型的特征提取、基于变换的特征提取、基于分形维数的特征提取。

02

J. Chem. Inf. Model. | 分子属性景观粗糙度及其对模型影响

今天为大家介绍的是来自Connor W. Coley团队的一篇论文。药物发现领域通常会定性或定量地分析结构-属性关系和活性景观，以指导化学空间的探索。这些分子属性景观的粗糙度（或平滑度）是最常研究的几何特性之一，因为它可以表征活性悬崖的存在，一般认为景观越粗糙，优化难度就越大。文章中介绍了一种描述分子属性景观粗糙度的通用量化指标——粗糙度指数（ROGI）。这个指数受到分形维数概念的启发，并且与机器学习模型在众多回归任务中的样本外误差有很强的相关性。

01

Must Know！数据科学家们必须知道的 5 种聚类算法

聚类是一种关于数据点分组的机器学习技术。给出一组数据点，我们可以使用聚类算法将每个数据点分类到特定的组中。理论上，同一组中的数据点应具有相似的属性或特征，而不同组中的数据点应具有相当不同的属性或特征（即类内差异小，类间差异大）。聚类是一种无监督学习方法，也是一种统计数据分析的常用技术，被广泛应用于众多领域。在数据科学中，我们可以通过聚类算法，查看数据点属于哪些组，并且从这些数据中获得一些有价值的信息。今天，我们一起来看看数据科学家需要了解的 5 种流行聚类算法以及它们的优缺点。一、K 均值聚类 K-

08

不同形式的基因排序方法会影响gsea富集分析结果

基因集富集分析（Gene Set Enrichment Analysis，简称GSEA）是一种用来确定一个预先定义的基因集是否在某种生物学状态下（比如疾病状态）表达水平有显著变化的方法。

01

五种聚类方法_聚类分析是一种降维方法吗

本文为雷锋字幕组编译的技术博客，原标题The 5 Clustering Algorithms Data Scientists Need to Know，作者为George Seif。

02

深度学习+度量学习的综述

如今，机器学习的应用广泛，包括人脸识别、医疗诊断等，为复杂问题和大量数据提供解决方案。机器学习算法能基于数据产生成功的分类模型，但每个数据都有其问题，需定义区别特征进行正确分类。常用的机器学习算法包括k最近邻、支持向量机和朴素贝叶斯分类器，但需注意特征加权和数据转换。

01

DBSCAN密度聚类算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。

02

OpenCV学习入门（三）：kmeans原理及代码

该文介绍了如何使用k-means算法对大规模图像数据集进行聚类分析。首先介绍了聚类算法的基本概念和实现方法，然后详细描述了k-means算法的步骤和流程。最后通过一个实际的图像聚类案例，展示了k-means算法在图像处理领域的应用。

05

《 Julia 数据科学应用》各章思考题答案

1．如果你以前没有用过 Julia，那么 Juno 是最安全的选择。如果不使用 Juno，那么带有最新 Julia 内核（在 IJulia 界面右上方）的 IJulia 也可以达到同样的效果。

04

如何正确选择聚类算法？ | CSDN博文精选

本文将介绍四种基本的聚类算法—层次聚类、基于质心的聚类、最大期望算法和基于密度的聚类算法，并讨论不同算法的优缺点。

01

如何正确选择聚类算法？

数据聚类是搭建一个正确数据模型的重要步骤。数据分析应当根据数据的共同点整理信息。然而主要问题是，什么通用性参数可以给出最佳结果，以及什么才能称为“最佳”。

03

SuperPixel 超像素分割 SLIC 算法

该范围限制了每个中心的计算区域，大大加速了 Kmeans 算法的运算速度这种方法不仅减少了距离计算，而且使得SLIC的复杂性与超像素的数量无关

02

该怎么检测异常值？

原文作者： Jacob Joseph 原文链接：https://blog.clevertap.com/how-to-detect-outliers-using-parametric-and-n

09

异常检测的阈值，你怎么选？给你整理好了...

异常值是指距离其他观测值非常遥远的点，但是我们应该如何度量这个距离的长度呢?同时异常值也可以被视为出现概率非常小的观测值，但是这也面临同样的问题——我们要如何度量这个概率的大小呢? 有许多用来识别异常

03

5种主要聚类算法的简单介绍

AiTechYun 编辑：Yining 聚类是一种机器学习技术，它涉及到数据点的分组。给定一组数据点，我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上，同一组中的数据点应该具有相似的属性和/或特征，而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法，是许多领域中常用的统计数据分析技术。在数据科学中，我们可以使用聚类分析从我们的数据中获得一些有价值的见解。在这篇文章中，我们将研究5种流行的聚类算法以及它们的优缺点。 K-MEANS聚类算法 K-Means聚类算法可能是大

04

4种基本聚类算法应如何正确选择？这份攻略值得你收藏

数据聚类是搭建一个正确数据模型的重要步骤。数据分析应当根据数据的共同点整理信息。然而主要问题是，什么通用性参数可以给出最佳结果，以及什么才能称为“最佳”。

02

独家 | 如何正确选择聚类算法？

数据聚类是搭建一个正确数据模型的重要步骤。数据分析应当根据数据的共同点整理信息。然而主要问题是，什么通用性参数可以给出最佳结果，以及什么才能称为“最佳”。

04

【深度学习】六大聚类算法快速了解

本文将从简单高效的 K 均值聚类开始，依次介绍均值漂移聚类、基于密度的聚类、利用高斯混合和最大期望方法聚类、层次聚类和适用于结构化数据的图团体检测。我们不仅会分析基本的实现概念，同时还会给出每种算法的优缺点以明确实际的应用场景。

01

NeurIPS 2021 Spotlight | 针对有缺失坐标的聚类问题的核心集

本文是《针对有缺失坐标的聚类问题的核心集（Coresets for Clustering with Missing Values）》的解读。该工作为带有多个缺失坐标的 k-聚类问题，特别是 k-means，设计第一个有理论保证的、可在近线性时间构造的核心集（coreset)。我们的核心集可以用来加速一个最近的 SODA 2021 结果，从而得到第一个带缺失坐标k-means问题的近线性时间近似方案。本工作还提供相应的实验来证明算法的实用性。

02

【机器学习】密度聚类

本文介绍了一种无参的密度聚类算法-DBSCAN。首先介绍了DBSCAN的类表示为一簇密度可达的样本点，相似性度量为密度可达。然后介绍了DBSCAN中几个基本定义： -邻域，核心对象，密度可达，密度直达，噪声点，基于此绍了DBSCAN算法的实现流程。最后介绍了算法的特点，能发现任意簇，抗噪性强，聚类时间长，存在维度灾难问题。

04

聚类算法 ---- 大数据聚类算法综述

随着数据量的迅速增加如何对大规模数据进行有效的聚类成为挑战性的研究课题，面向大数据的聚类算法对传统金融行业的股票投资分析、互联网金融行业中的客户细分等金融应用领域具有重要价值，本文对已有的大数据聚类算法，以及普通聚类算法做一个简单介绍

03

机器学习算法基础：层次聚类详解

层次聚类假设类别之间存在层次结构，将样本聚到层次化的类中。所谓层次就是一层一层的进行聚类，可以采用自顶向下的聚类策略（分裂），也可以采用自下而上的策略（凝聚）。

03

【Briefings in Bioinformatics】四篇好文简读-专题24

FusionDTA: attention-based feature polymerizer and knowledge distillation for drug-target binding affinity prediction 论文摘要：

02

scikit-learn K近邻法类库使用小结

在K近邻法(KNN)原理小结这篇文章，我们讨论了KNN的原理和优缺点，这里我们就从实践出发，对scikit-learn 中KNN相关的类库使用做一个小结。主要关注于类库调参时的一个经验总结。

03

机器学习算法基础：层次聚类详解

层次聚类假设类别之间存在层次结构，将样本聚到层次化的类中。所谓层次就是一层一层的进行聚类，可以采用自顶向下的聚类策略（分裂），也可以采用自下而上的策略（凝聚）。

01

Python机器学习笔记：不得不了解的机器学习面试知识点（1）[通俗易懂]

机器学习岗位的面试中通常会对一些常见的机器学习算法和思想进行提问，在平时的学习过程中可能对算法的理论，注意点，区别会有一定的认识，但是这些知识可能不系统，在回答的时候未必能在短时间内答出自己的认识，因此将机器学习中常见的原理性问题记录下来，保持对各个机器学习算法原理和特点的熟练度。

01

推荐｜数据科学家需要了解的5大聚类算法

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域聚类是一种涉及数据点分组的机器学习技术。给定一个数据点集，则可利用聚类算法将每个数据点分类到一个特定的组中。理论上，同一组数据点具有

07

归一化方法总结_实例归一化

http://blog.csdn.net/zbc1090549839/article/details/44103801

03

数据科学家必须了解的六大聚类算法：带你发现数据之美

选自TowardsDataScience 作者：George Seif 机器之心编译参与：程耀彤、蒋思源、李泽南在机器学习中，无监督学习一直是我们追求的方向，而其中的聚类算法更是发现隐藏数据结构与知识的有效手段。目前如谷歌新闻等很多应用都将聚类算法作为主要的实现手段，它们能利用大量的未标注数据构建强大的主题聚类。本文从最基础的 K 均值聚类到基于密度的强大方法介绍了 6 类主流方法，它们各有擅长领域与情景，且基本思想并不一定限于聚类方法。本文将从简单高效的 K 均值聚类开始，依次介绍均值漂移聚类、基于

人工智能-机器学习总结

数山有路，学海无涯：机器学习概论 ---- 机器学习的基本原理与基础概念，其要点如下：机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科；根据输入输出类型的不同，机器学习

07

K-means

对于”监督学习”(supervised learning)，其训练样本是带有标记信息的，并且监督学习的目的是：对带有标记的数据集进行模型学习，从而便于对新的样本进行分类。而在“无监督学习”(unsupervised learning)中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。对于无监督学习，应用最广的便是”聚类”(clustering)。

02

机器学习学习笔记(3) --SparkMLlib部分算法解析

由点与点之间的关系反推出函数表达式的过程就是回归，回归在机器学习中解决的问题就是值预测问题；确定一条最好的直线来拟合所有的点，假设直线是y=W0+W1X，确定直线就是确定W0和W1的值；

02

特征工程系列：特征预处理（上）

关于作者：JunLiang，一个热爱挖掘的数据从业者，勤学好问、动手达人，期待与大家一起交流探讨机器学习相关内容~

03

特征工程系列：特征预处理（上）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭