首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

高维最近邻搜索和局部敏感性哈希

高维最近邻搜索(High-Dimensional Nearest Neighbor Search)是指在高维数据空间中寻找一个查询点的最近邻点。由于高维空间中数据点的数量庞大,传统的线性搜索方法效率低下,因此需要使用高维最近邻搜索算法来加快搜索速度。

高维最近邻搜索算法通常分为两类:基于树结构的方法和基于哈希函数的方法。

  1. 基于树结构的方法:
    • KD树(K-Dimensional Tree):将数据点逐步分割成多个子空间,构建一棵二叉树,通过比较查询点与树节点的距离来搜索最近邻点。
    • R树(R-Tree):将数据点组织成一棵多维的树结构,每个节点表示一个矩形区域,通过比较查询点与矩形区域的距离来搜索最近邻点。
    • Ball树(Ball Tree):将数据点逐步分割成多个球形区域,构建一棵树结构,通过比较查询点与球心的距离来搜索最近邻点。
  2. 基于哈希函数的方法:
    • 局部敏感性哈希(Locality Sensitive Hashing,LSH):通过哈希函数将数据点映射到低维空间,使得相似的数据点在低维空间中具有较高的概率被映射到相同的桶中,从而实现最近邻搜索。
    • 超平面哈希(Hyperplane Hashing):通过随机超平面将数据点映射到二进制码,相似的数据点在二进制码中具有较高的汉明距离,从而实现最近邻搜索。

高维最近邻搜索在很多领域都有广泛的应用,例如图像识别、语音识别、推荐系统等。在云计算领域,高维最近邻搜索可以用于大规模数据的相似性搜索、聚类分析、异常检测等场景。

腾讯云提供了一系列与高维最近邻搜索相关的产品和服务,包括:

  • 腾讯云搜索引擎(Cloud Search):提供高性能、可扩展的全文搜索服务,支持高维数据的最近邻搜索。
  • 腾讯云人脸识别(Face Recognition):提供人脸检测、人脸比对等功能,可以用于高维人脸特征的最近邻搜索。
  • 腾讯云图像搜索(Image Search):提供基于图像内容的相似图片搜索服务,支持高维图像特征的最近邻搜索。

以上是关于高维最近邻搜索的概念、分类、优势、应用场景以及腾讯云相关产品的介绍。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

一文带你了解检索增强生成中的神兵利器 —— 近似近邻搜索

随着大语言模型Chatgpt的横空出世,大语言模型(Large Language Model, LLM)频繁地出现在公众的视野中,成为了商业、娱乐、教育等领域讨论的热点。在LLM众多的出色能力中,其强大的检索能力(Information Retrieval)能力备受瞩目。大语言模型本身不联网,但却好像能回答互联网上能搜到的大部分问题,包括包括事情发生的具体时间、人物关系和前因后果等等。然而,LLM的记忆能力和检索能力也不是无限的。比如,LLM的幻觉(Hallucination)问题就是学术界和工业界目前致力于解决的问题 [1]。幻觉指的是即使在不确定答案的情况下,LLM不但不会承认无法回答,还会以自信的口吻凭空捏造出事实,通常可以以假乱真。为了解决这一现象,许多研究方向被提了出来,而检索增强生成(Retrieval-Augmented Generation, RAG)就是其中的一种方法。对于用户的提问,RAG首先生成信息检索请求,然后在数据库中寻找相关的信息,最后,结合相关信息和用户的提问向大语言模型进行提问(流程示意图见图1)。因为在数据库中寻找到的信息都是真实可靠的,大语言模型会根据提供的真实数据进行回答,减少其幻觉的可能。不仅如此,RAG的范式极大的扩展了大语言模型的应用场景,使得其可以实现大规模内容的记忆与整理。许多应用也由此催生出来,包括虚拟人设、文章理解/总结等。在RAG中,如何在大量的内容向量(数以万计)中找到与检索向量相匹配的内容直接决定了生成的质量和效率。能否在短时间内得到丰富翔实的内容对于最后回答的生成起到了近乎决定行性的作用。在本篇文章中,我们将介绍近似近邻搜索的概念,并介绍其中三种常见的方法。

06

Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

今天为大家介绍的是来自Xiaojun Yao团队的一篇预测miRNA和药物关系的论文。研究表明许多药物的作用机制与miRNA有关。对miRNA与药物之间关系的深入研究可以为药物靶标发现、药物再定位和生物标志物研究等领域提供理论基础和实际方法。传统的用于测试miRNA药物敏感性的生物实验成本高且耗时。因此,在这一领域,基于序列或拓扑的深度学习方法以其高效和准确性而受到认可。然而,这些方法在处理稀疏拓扑和miRNA(药物)特征的高阶信息方面存在局限性。作者提出了一种基于图协同过滤的多视角对比学习模型GCFMCL,这是第一个将对比学习策略引入图协同过滤框架以预测miRNA与药物之间的敏感性关系的尝试。作者所提出的多视角对比学习有效地减轻了图协同过滤中异质节点噪声和图数据稀疏性的影响,显著提升了模型的性能。

03

降维

PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。

00

BMC Medicine:自闭症谱系障碍静息态EEG信号的定量递归分析​

自闭症谱系障碍(ASD,Autism spectrum disorder )是一种神经发育障碍,患病率为1-2%。特别是在低资源环境中,对ASD的早期识别和诊断是一个重大挑战。因此,ASD迫切需要一种“语言自由、文化公平”,并且不需要专业人员参与的低成本筛选工具。在ASD和神经发育障碍中,EEG可用来寻找生物标记物。其中,关键挑战之一是确定适当的多元下一代分析方法(multivariate, next-generation analytical methodologies),这些方法可以描述大脑中复杂的非线性神经网络动态性,同时也考虑到可能影响生物标记物发现的技术和人口学混淆因素。开普敦大学儿童和青少年精神病科T. Heunis和P. J. de Vries等人在BMC Medicine杂志发文,评估定量递归分析(RQA,recurrence quantification analysis )作为ASD潜在生物标记物的稳健性,并对一系列潜在的技术和人口混杂因素进行系统的方法学探索。

02

Annals of Neurology :脑血管健康相关的MRI标记物在认知衰退中的应用

近些年Aβ和tau相关PET的运用为探究全身血管健康与大脑健康的关系提供了很好的途径。本研究旨在寻求早期脑血管健康相关的MRI影像标记物(包括结构、灌注、白质微结构完整性)。来自梅奥医学中心的研究者使用两个独立的样本,通过既往病史(高血压、高脂血症、心律失常、冠状动脉疾病、充血性心力衰竭、糖尿病和中风)总结被试心血管和代谢状况(CMC)来确定其血管的健康程度。利用多元回归模型,分析CMC与脑健康之间的关系,并控制年龄、性别、教育/职业和AD病理(Aβ和tau)等因素。研究者发现全身血管健康与内侧颞叶皮质变薄、广泛的脑低灌注和白质微结构破坏(主要包括胼胝体和穹窿等纤维束)密切相关。进一步的研究表明,胼胝体膝部的微结构完整性可以用于脑血管健康的早期评估,在独立样本中可进行验证,而且预测认知的能力高于Aβ沉积指标。最后,研究者总结全身血管健康状况对大脑结构和功能有显著影响,早期脑血管健康相关的MRI标记物独立于AD病理指标,可预测认知衰退。

02

使用 Spark, LSH 和 TensorFlow 检测图片相似性

作为一个视觉数据处理平台,拥有从海量图片中学习并理解其内容的能力是非常重要的。为了检测几近重复的相似图片,我们使用了一套基于 Spark 和 TensorFlow 的数据流处理系统——NearDup。这套系统的核心由一个使用 Spark 实现的批量化 LSH(locality-sensitive hashing,局部敏感哈希)搜索器和一个基于 TensorFlow 的分类器构成。这个数据流处理系统每天能够比较上亿个分析对象,并渐进式地完成各个图像类别的信息更新。在本文中,我们将讲解如何使用这项技术更好地理解海量图片内容,从而使得我们产品前端界面的推荐内容和搜索结果具有更高的信息准确性、更大的数据密度。

02

你的模型需要解释(二)

广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息。比如我们在调试bug的时候,需要通过变量审查和日志信息定位到问题出在哪里。比如在科学研究中面临一个新问题的研究时,我们需要查阅一些资料来了解这个新问题的基本概念和研究现状,以获得对研究方向的正确认识。反过来理解,如果在一些情境中我们无法得到相应的足够的信息,那么这些事情对我们来说都是不可解释的。比如刘慈欣的短篇《朝闻道》中霍金提出的“宇宙的目的是什么”这个问题一下子把无所不知的排险者卡住了,因为再高等的文明都没办法理解和掌握造物主创造宇宙时的全部信息,这些终极问题对我们来说永远都是不可解释的。

04

Olaparib 有望治疗 UBQLN4 过表达型肿瘤 | MedChemExpress

基因组的不稳定性是人类遗传病和癌症的一大特点。在这篇文章当中,研究人员在常染色体隐性遗传病家族中发现了有害的 UBQLN4 突变。蛋白酶体穿梭因子UBQLN4 被 ATM 磷酸化并与泛素化的 MRE11 相互作用,从而介导早期的同源重组修复 (HRR)。在体外和体内实验中均证实,UBQLN4 的缺失会导致 MRE11 染色质的滞留,促进非生理性的 HRR。相反,UBQLN4 的过表达会抑制同源重组,促进非同源末端连接。此外,作者还发现 UBQLN4 在侵略性地肿瘤中过度表达。在 HRR 缺失的肿瘤中,UBQLN4 的过表达与PARP1 抑制剂的敏感性相关。因此,UBQLN4 通过从受损染色质中去除 MRE11 来抑制 HRR 活性,使得 PARP1 抑制剂有望治疗 UBQLN4 过表达型肿瘤。

01

局部敏感哈希(Locality-Sensitive Hashing, LSH)

局部敏感哈希示意图(from: Piotr Indyk) LSH的基本思想是:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果我们对原始数据进行一些hash映射后,我们希望原先相邻的两个数据能够被hash到相同的桶内,具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后,我们就得到了一个hash table,这些原始数据集被分散到了hash table的桶内,每个桶会落入一些原始数据,属于同一个桶内的数据就有很大可能是相邻的,当然也存在不相邻的数据被hash到了同一个桶内。因此,如果我们能够找到这样一些hash functions,使得经过它们的哈希映射变换后,原始空间中相邻的数据落入相同的桶内的话,那么我们在该数据集合中进行近邻查找就变得容易了,我们只需要将查询数据进行哈希映射得到其桶号,然后取出该桶号对应桶内的所有数据,再进行线性匹配即可查找到与查询数据相邻的数据。换句话说,我们通过hash function映射变换操作,将原始数据集合分成了多个子集合,而每个子集合中的数据间是相邻的且该子集合中的元素个数较小,因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题,显然计算量下降了很多。 那具有怎样特点的hash functions才能够使得原本相邻的两个数据点经过hash变换后会落入相同的桶内?这些hash function需要满足以下两个条件: 1)如果d(x,y) ≤ d1, 则h(x) = h(y)的概率至少为p1; 2)如果d(x,y) ≥ d2, 则h(x) = h(y)的概率至多为p2; 其中d(x,y)表示x和y之间的距离,d1 < d2, h(x)和h(y)分别表示对x和y进行hash变换。 满足以上两个条件的hash functions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。 使用LSH进行对海量数据建立索引(Hash table)并通过索引来进行近似最近邻查找的过程如下: 1. 离线建立索引 (1)选取满足(d1,d2,p1,p2)-sensitive的LSH hash functions; (2)根据对查找结果的准确率(即相邻的数据被查找到的概率)确定hash table的个数L,每个table内的hash functions的个数K,以及跟LSH hash function自身有关的参数; (3)将所有数据经过LSH hash function哈希到相应的桶内,构成了一个或多个hash table; 2. 在线查找 (1)将查询数据经过LSH hash function哈希得到相应的桶号; (2)将桶号中对应的数据取出;(为了保证查找速度,通常只需要取出前2L个数据即可); (3)计算查询数据与这2L个数据之间的相似度或距离,返回最近邻的数据; LSH在线查找时间由两个部分组成: (1)通过LSH hash functions计算hash值(桶号)的时间;(2)将查询数据与桶内的数据进行比较计算的时间。因此,LSH的查找时间至少是一个sublinear时间。为什么是“至少”?因为我们可以通过对桶内的属于建立索引来加快匹配速度,这时第(2)部分的耗时就从O(N)变成了O(logN)或O(1)(取决于采用的索引方法)。 LSH为我们提供了一种在海量的高维数据集中查找与查询数据点(query data point)近似最相邻的某个或某些数据点。需要注意的是,LSH并不能保证一定能够查找到与query data point最相邻的数据,而是减少需要匹配的数据点个数的同时保证查找到最近邻的数据点的概率很大。 二、LSH的应用 LSH的应用场景很多,凡是需要进行大量数据之间的相似度(或距离)计算的地方都可以使用LSH来加快查找匹配速度,下面列举一些应用: (1)查找网络上的重复网页 互联网上由于各式各样的原因(例如转载、抄袭等)会存在很多重复的网页,因此为了提高搜索引擎的检索质量或避免重复建立索引,需要查找出重复的网页,以便进行一些处理。其大致的过程如下:将互联网的文档用一个集合或词袋向量来表征,然后通过一些hash运算来判断两篇文档之间的相似度,常用的有minhash+LSH、simhash。 (2)查找相似新闻网页或文章 与查找重复网页类似,可以通过hash的方法来判断两篇新闻网页或文章是否相

03

利用单细胞技术和深度学习预测药物响应

除了一些对选择疗法具有固有抗性的肿瘤亚群,癌细胞还可以通过多种机制获得抗药性,例如药物激活,靶点交替和药物外排。现在,对治疗的不敏感性导致高达90%的癌症相关的病人死亡。因此,我们必须加深对耐药性传播机制的了解,并准确预测哪种联合药物治疗将最有效地对抗特异性癌症。对此,高通量测序技术,例如DNA测序,RNA测序,ATAC-seq(assay for transposase-accessible chromatin with high-throughput sequencing)和ChIP-seq等,都可以表征肿瘤的基因组,转录组和表观遗传学特征,并收集对耐药肿瘤的信息。例如,通过DNA-seq对卵巢癌进行全基因组表征直接导致了对肿瘤抑制因子的鉴定,这些抑制因子在失活时会产生耐药性。单细胞技术的发展,包括单细胞DNA测序(scDNA-seq)和单细胞RNA测序(scRNA-seq),使科学家能够分析单个细胞的基因组和转录组谱。这种创新使研究人员能够更好地研究癌症的异质性,并推论出耐药性的根源。此外,相关研究促进了对独立癌症亚群的药物敏感性预测。例如,已经通过scRNA-seq和大量ChIP-seq确定了乳腺癌亚群中治疗耐药性的关键调控因子(KDM5A/B)。

03
领券