特别是在一些知识问答场景,如人工客服,知识库检索等方面,一个问题有很多种描述方法,所以在通过向量查询的方式中,根据相似度计算后会最大可能得检索到所有相关的答案,然后按照最佳匹配的权重返回最理想的结果,如大模型中的...算法逻辑: 构建多个哈希函数族,每个函数将向量映射到一个哈希值。 对每个向量计算多个哈希值,作为该向量的签名。 将具有相同签名的向量存储在同一个桶中。...查询时,计算查询向量的签名,检索对应桶中的向量作为候选集。 在候选集中进行精确的相似度计算,返回最相似的K个向量。...示例: 在一个包含数百万条新闻文本的语义检索系统中,可以使用LSH将新闻文本映射为向量并构建索引。查询时将用户查询语句也映射为向量,通过LSH快速检索出与之最相似的新闻文本。...也可以简单的理解为:
apricot的向量值为[0,0,0,1,0,1]
pineapple的向量值为[0,0,0,1,0,1]
两个单词有相同的向量,则两个单词的语义相同或者接近。