Scipy:稀疏相似度与阈值的epsilon邻域 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

【非监督学习 | 聚类】聚类算法类别大全 & 距离度量单位大全

🙋‍♂️声明：本人目前大学就读于大二，研究兴趣方向人工智能&硬件（虽然硬件还没开始玩，但一直很感兴趣！希望大佬带带）

01

【非监督学习 | 聚类】聚类算法类别大全 & 距离度量单位大全

【深度学习 | 核心概念】那些深度学习路上必经的核心概念，确定不来看看？（一）作者：计算机魔术师版本： 1.0 （ 2023.8.27 ）

01

您找到你想要的搜索结果了吗？

是的

没有找到

【非监督学习 | 聚类】聚类算法类别大全 & 距离度量单位大全

🙋‍♂️声明：本人目前大学就读于大二，研究兴趣方向人工智能&硬件（虽然硬件还没开始玩，但一直很感兴趣！希望大佬带带）

01

用scikit-learn学习DBSCAN聚类

在DBSCAN密度聚类算法中，我们对DBSCAN聚类算法的原理做了总结，本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结，重点讲述参数的意义和需要调参的参数。

03

基于LBPH的人脸识别

彩色图像单个像素是(R, G, B),转换成灰度图就是简化矩阵, 提高运算速度比如一个点，灰度的话，就256个维度而已，但是如果算上RGB色彩的话，那就是1600万以上维度。然后再相互组合，或者说找梯度，可以想象计算量非常大，于是就先降维（灰度）来计算.

01

ELSR：一种高效的线云重建算法

标题：ELSR: Efficient Line Segment Reconstruction with Planes and Points Guidance

02

SDMNet：大规模激光雷达点云配准的稀疏到稠密匹配网络

自动驾驶车辆需要准确地感知和理解周围环境，相比于二维的视觉感知，三维视觉感知提供了更多的信息和更准确的空间建模能力。而点云配准是三维视觉感知中的一项基本问题，在自动驾驶中的地图、定位等方面有着重要作用。基于特征匹配的配准算法是点云配准领域的核心框架之一，其主要基于特征相似度求解匹配点对，并结合鲁棒匹配算法得到最终的配准结果，该框架更能够适应自动驾驶场景，但大规模且复杂的点云场景也对点云配准算法的效率和准确性提出了更高的要求。

00

详细介绍了Python聚类分析的各种算法和评价指标

较为详细介绍了聚类分析的各种算法和评价指标，本文将简单介绍如何用python里的库实现它们。

04

近邻推荐之基于用户的协同过滤

提到推荐系统，很多人第一反应就是协同过滤，由此可见协同过滤与推荐系统的关系是有多么紧密。这里介绍下基于用户的协同过滤。

08

DBSCAN密度聚类算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。

02

【黑科技】数据分析师的秘密-QQ聊天记录分析(三)

上两篇分析了群的活跃状况,成员活跃状况,以及一些文本的分析,包括词云,聊天关键字, 实体识别,情感分析等等,这篇只围绕一个问题来,那就是提取谈话内容的问题,并找到类似的问题,通过这个分析,我们可以大

05

mahout学习之推荐算法

推荐的定义推荐算法可以分为三大类，基于用户的，基于物品的和基于内容的，前两者均属于协同过滤的范畴，仅仅通过用户与物品之间的关系进行推荐，无需了解物品自身的属性。而几乎内容的推荐技术很有用，但是必须与特定领域相结合，比如推荐一本书就必须了解书的属性，作者，颜色，内容等等。但是这些知识无法转移到其他领域，比如基于内容的图书推荐就对推荐哪道菜比较好吃毫无用处。所有mahout对基于内容的推荐涉及很少。基于用户的推荐算法基于用户的推荐算法来源与对相似用户爱好的总结，一般过程如下： for (用户u尚未

03

【机器学习】创建自己的电影推荐系统

每个人都喜欢电影，不分年龄、性别、种族、肤色或地理位置。通过这种神奇的媒介，我们在某种程度上彼此联系在一起。然而，最有趣的是，我们的选择和组合在电影偏好方面是多么独特。

02

Paper Digest | 突破个性化推荐数据稀疏性：长尾增强的图对比学习算法研究

本文将介绍的论文 Long-tail Augmented Graph Contrastive Learning for Recommendation 已被 ECML/PKDD 2023 Research Track 接收。

01

推荐算法理论（一）：协同过滤

本文是推荐算法理论系列的第一篇文章，还是想从最经典的协同过滤算法开始。虽然有伙伴可能觉得这个离我们比较久远，并且现在工业界也很少直接用到原始的协同过滤，但协同过滤的思想依然是非常强大，因为它借助于群体智能智慧，仅仅基于用户与物品的历史交互行为，就可以发掘物品某种层次上的相似关系或用户自身的偏好。这个过程中，可以不需要太多特定领域的知识，可以不需要物品画像或用户画像本身的特征，可以采用简单的工程实现，就能非常方便的应用到产品中。所以作为推荐算法"鼻祖"，我们还是非常有必要先来了解一下这个算法的。

03

深入浅出——基于密度的聚类方法

作者祝烨编辑 (没脸) “The observation of and the search forsimilarities and differences are the basis of all human knowledge.” —— ALFREDB. NOBEL “人类所有知识的基础就是观察和寻找相似与相异” —— 阿尔弗雷德·伯恩哈德·诺贝尔前言我们生活在数据大爆炸时代，每时每刻都在产生海量的数据如视频，文本，图像和博客等。由于数据的类型和大小已经超出了人们传统

08

深入浅出——基于密度的聚类方法

“The observation of and the search forsimilarities and differences are the basis of all human knowledge.” —— ALFREDB. NOBEL

01

关于基于密度的聚类方法_凝聚聚类算法

“The observation of and the search forsimilarities and differences are the basis of all human knowledge.” —— ALFREDB. NOBEL

02

推荐算法的介绍，第一部分——协同过滤与奇异值分解

推荐系统是指能够预测用户未来偏好项目（item）并推荐最优先项目的系统。现代社会之所以需要推荐系统，是由于互联网的普及，人们有太多的选择可供使用。过去，人们习惯于在实体店里购物，而在实体店里商品是有限

05

数据挖掘复习（包括一些课本习题）[通俗易懂]

1.1.数据挖掘处理的对象有哪些？处理某一专业领域中积累的数据； 1.2.数据挖掘在电子商务中的客户关系管理起到非常重要的作用；

01

最全推荐系统传统算法合集

我花了半个多月将推荐系统传统算法分别进行了总结归纳，应该时目前全网最全的版本了。希望对大家了解推荐系统传统算法有所帮助。

03

TOIS'21 | 第一个基于多关系图的任务驱动GNN框架

北京航空航天大学、美国伊利诺伊大学芝加哥分校和英国利兹大学联合提出了一个全新的强化、递归且可扩展的由邻域选择引导的多关系图神经网络架构 RioGNN。与最先进的 GNN 以及专用异构模型相比，RioGNN 的各种下游任务显着提高了 0.70%–32.78%。

02

【技术综述】一文道尽传统图像降噪方法

图像预处理算法的好坏直接关系到后续图像处理的效果，如图像分割、目标识别、边缘提取等，为了获取高质量的数字图像，很多时候都需要对图像进行降噪处理，尽可能的保持原始信息完整性（即主要特征）的同时，又能够去除信号中无用的信息。

03

从理论到实践，一文详解 AI 推荐系统的三大算法

介绍背景随着互联网行业的井喷式发展，获取信息的方式越来越多，人们从主动获取信息逐渐变成了被动接受信息，信息量也在以几何倍数式爆发增长。举一个例子，PC时代用google reader，常常有上千条未读博客更新；如今的微信公众号，也有大量的红点未阅读。垃圾信息越来越多，导致用户获取有价值信息的成本大大增加。为了解决这个问题，我个人就采取了比较极端的做法：直接忽略所有推送消息的入口。但在很多时候，有效信息的获取速度极其重要。由于信息的爆炸式增长，对信息获取的有效性，针对性的需求也就自然出现了。推荐系统

07

数据挖掘 | 数据分析师都在看的聚类分析知识点总汇

聚类分析是按照个体的特征将他们分类，让同一个类别内的个体之间具有较高的相似度，不同类别之间具有较大的差异性。聚类分析属于无监督学习。聚类对象可以分为两类：

02

哈佛大学提出SpLiCE | 证实CLIP潜在空间的高度结构性，并提出了稀疏线性嵌入替代密集表示

），用于将CLIP表示转换为人类可解释的概念的稀疏线性组合。与之前的工作不同，SpLiCE不需要概念标签，可以在事后应用。通过使用多个真实世界数据集的广泛实验，作者验证了SpLiCE输出的表示可以解释甚至替代传统的密集CLIP表示，在保持等效的下游性能的同时显著提高它们的可解释性。作者还展示了SpLiCE表示的几个用例，包括检测虚假相关性、模型编辑以及量化数据集中的语义变化。代码:https://github.com/AI4LIFE-GROUP/SpLiCE

01

【机器学习】第四部分：聚类问题

聚类（cluster）与分类（class）问题不同，聚类是属于无监督学习模型，而分类属于有监督学习。聚类使用一些算法把样本分为N个群落，群落内部相似度较高，群落之间相似度较低。在机器学习中，通常采用“距离”来度量样本间的相似度，距离越小，相似度越高；距离越大，相似度越低.

02

通透！十大聚类算法全总结！！

这些聚类算法各有优缺点，适用于不同类型的数据和不同的应用场景。选择合适的聚类算法通常取决于具体的需求、数据的特性和计算资源。

01

PRML系列：1.4 The Curse of Dimensionality

随便扯扯 PRML例举了一个人工合成的数据集，这个数据集中表示一个管道中石油，水，天然气各自所占的比例。这三种物质在管道中的几何形状有三种不同的配饰，被称为“同质状”、“环状”和“薄片状”。输入有1

05

如何动手设计和构建推荐系统？看这里

你听说过著名的果酱实验吗？在 2000 年，来自哥伦比亚大学和斯坦福大学的心理学家 Sheena Iyengar 和 Mark Lepper 基于现场实验提出了一项研究。

01

机器学习聚类算法

聚类算法是一种无监督学习方法，用于将数据集中的样本划分为多个簇，使得同一簇内的样本相似度较高，而不同簇之间的样本相似度较低。在数据分析中，聚类算法可以帮助我们发现数据的内在结构和规律，从而为进一步的数据分析和挖掘提供有价值的信息。

01

少数人的智慧：基于专家意见的协同过滤

基于最近邻算法的协同过滤（nearest-neighbor collaborative filtering）是一种十分成功的推荐方法。然而，这种方法存在一些缺点，比如数据稀疏性、脏数据、冷启动问题以及可扩展性。

01

密度聚类DBSCAN、HDBSCAN

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。在DBSCAN算法中将数据点分为三类：

02

使用图进行特征提取：最有用的图特征机器学习模型介绍

从图中提取特征与从正常数据中提取特征完全不同。图中的每个节点都是相互连接的，这是我们不能忽视的重要信息。幸运的是，许多适合于图的特征提取方法已经创建，这些技术可以分为节点级、图级和邻域重叠级。在本文中，我们将研究最常见的图特征提取方法及其属性。

04

【Python】机器学习之聚类算法

这些聚类算法在不同场景和数据特性下有各自的优势和局限性，选择合适的算法取决于问题的性质和对结果的需求。聚类在图像分割、客户细分、异常检测等领域都有广泛的应用。

01

python演示推荐系统里的协同过滤算法

推荐系统是属于信息过滤领域的一个范畴，目标在预测用户对某个项目（例如产品、电影、歌曲等）的“评分”或“偏好”。

01

机器学习中的异常检测手段

总体来讲，异常检测问题可以概括为两类：一是对结构化数据的异常检测，二是对非结构化数据的异常检测。

05

Mathematics2022-Network Embedding Algorithm Taking in Variational Graph AutoEncoder

属性网络在现实世界中被广泛的用于建模实体间的连接，其中节点的联通边表示对象之间的关系以及关于节点本身的描述中节点的属性信息。举了3个例子：

03

异常检测：探索数据深层次背后的奥秘《中篇》

真实数据集中不同维度的数据通常具有高度的相关性，这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中，这被称为——回归建模，一种参数化的相关性分析。

03

简单谈谈DBSCAN聚类

写在前面聚类的学习过程总是很快乐的，因为真的太简单了！ 1.基本概念初始设定两个值：minPts以及半径r。核心对象：若一个点的r邻域内点的个数大于等于minPts，我们就称该点为一个核心对象。邻域的距离阈值：r。直接密度可达：若某点p在核心点q的邻域内，则称p-q直接可达。密度可达：若有一个点序列：q0,q1,q2,...,qk，对序列里任意两个相邻的点都是直接可达的，则称从q0到qk密度可达。 2.基本流程任意选择一个未被访问的点p，并将该点标记为已访问。如果p的邻域内点的个数大于

02

TKDE2023 | 为推荐系统注入先验知识: 基于近邻增强的对比学习推荐算法

TLDR: 本文针对协同过滤技术固有的数据稀疏问题，提出了两种监督对比损失函数，将锚定节点的近邻信息视为最终目标损失函数内的正样本。通过对所提出的损失函数进行梯度分析，可以发现锚点节点表征的更新将同时受到多个正样本和增强负样本的共同影响。最后通过大量的实验验证了所提出方法的有效性。

01

传统方法的点云分割以及PCL中分割模块

之前在微信公众号中更新了以下几个章节 1，如何学习PCL以及一些基础的知识 2，PCL中IO口以及common模块的介绍 3, PCL中常用的两种数据结构KDtree以及Octree树的介绍

02

从零开始学推荐系统一：基于邻域的算法

基于邻域的算法是推荐系统中最基本的算法，在业界得到了广泛应用。基于邻域的算法分为两大类，一类是基于用户的协同过滤算法，另一类是基于物品的协同过滤算法。

03

【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( DBSCAN 原理 | DBSCAN 流程 | 可变密度问题 | 链条现象 | OPTICS 算法引入 | 聚类层次 | 族序概念 )

② 噪音识别 : 如果样本对象与其它的样本对象没有密度连接关系 , 那么该样本就是噪音 ;

01

协同过滤算法

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/155142.html原文链接：https://javaforall.cn

02

基于jvm-sandbox-repeater的流量降噪方案

jvm-sandbox-repeater 是阿里开源的一款可基于 jvm-sandbox (阿里另一开源项目)可对应用目标 jvm 进行动态增强同时对目标服务的指定流量进行录制及回放的工具，使用过程中遇到如下问题:

05

【干货】22道机器学习常见面试题目

有监督学习：对具有概念标记（分类）的训练样本进行学习，以尽可能对训练样本集外的数据进行标记（分类）预测。这里，所有的标记（分类）是已知的。因此，训练样本的岐义性低。

01

【干货】22道机器学习常见面试题目

有监督学习：对具有概念标记（分类）的训练样本进行学习，以尽可能对训练样本集外的数据进行标记（分类）预测。这里，所有的标记（分类）是已知的。因此，训练样本的岐义性低。

01

22道机器学习常见面试题

有监督学习：对具有概念标记（分类）的训练样本进行学习，以尽可能对训练样本集外的数据进行标记（分类）预测。这里，所有的标记（分类）是已知的。因此，训练样本的岐义性低。

02

从DBSCAN算法谈谈聚类算法

最近看了一篇关于电子商务防欺诈的相关论文，其中在构建信用卡的个人行为证书中用到了DBSCAN算法。具体内容请参看论文： Credit card fraud detection: A fusion approach using Dempster–Shafer theory and Bayesian learning。我就想深入了解下这个聚类方法是怎么工作的。在思考这个具体DBSCAN算法的形成过程中，我还参看了： 1. wikipedia DBSCAN的相关介绍 2. 博文简单易学的机器学习算法——基于密度的聚类算法DBSCAN 3. 论文-A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise 等相关文献。此篇博文尝试讲清楚”物以类聚，人以群分”这个概念，DBSCAN算法中两个参数的实际物理含义，以及它背后所做的基本假设，由于这方面资料不多，因此都属于个人的猜想，不代表发明DBSCAN算法作者本身的想法，且这也是我正式学习聚类算法中的第一个算法，由于知识的局限性，如有不当，请指正。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭