开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用向量c++的二进制搜索

基础概念

二进制搜索（Binary Search）是一种高效的查找算法，适用于已排序的数据集。它通过反复将查找范围减半来快速定位目标值。二进制搜索的时间复杂度为O(log n)，比线性搜索（O(n)）更高效。

向量（Vector）是C++标准库中的一个动态数组容器，能够自动管理内存，并提供高效的随机访问能力。

相关优势

高效性：二进制搜索的时间复杂度为O(log n)，在大数据集上表现优异。
简洁性：算法逻辑简单，易于实现和维护。
适用性：适用于任何已排序的数据结构，包括向量。

类型与应用场景

类型：

标准二进制搜索：查找目标值是否存在。
查找插入位置：查找目标值应插入的位置以保持有序性。

应用场景：

数据库索引查找：快速定位记录。
排序数组中的元素查找：如查找某个元素或确定其插入点。
算法竞赛：常用于解决时间敏感的问题。

示例代码

以下是一个使用C++向量实现二进制搜索的示例：

#include <iostream>
#include <vector>

// 标准二进制搜索函数
int binarySearch(const std::vector<int>& arr, int target) {
    int left = 0;
    int right = arr.size() - 1;

    while (left <= right) {
        int mid = left + (right - left) / 2;

        if (arr[mid] == target) {
            return mid; // 找到目标值，返回索引
        } else if (arr[mid] < target) {
            left = mid + 1; // 目标值在右侧
        } else {
            right = mid - 1; // 目标值在左侧
        }
    }

    return -1; // 未找到目标值
}

// 查找插入位置的函数
int searchInsertPosition(const std::vector<int>& arr, int target) {
    int left = 0;
    int right = arr.size() - 1;

    while (left <= right) {
        int mid = left + (right - left) / 2;

        if (arr[mid] == target) {
            return mid; // 找到目标值，返回索引
        } else if (arr[mid] < target) {
            left = mid + 1; // 目标值应在右侧
        } else {
            right = mid - 1; // 目标值应在左侧
        }
    }

    return left; // 返回插入位置
}

int main() {
    std::vector<int> vec = {1, 3, 5, 6};
    int target = 5;

    int index = binarySearch(vec, target);
    std::cout << "Binary Search Result: " << index << std::endl;

    int insertPos = searchInsertPosition(vec, 2);
    std::cout << "Insert Position for 2: " << insertPos << std::endl;

    return 0;
}

常见问题及解决方法

问题1：未找到目标值但未返回-1

原因：循环条件或边界更新不正确。
解决方法：确保left <= right且每次循环后正确更新left和right。

问题2：数组越界

原因：计算中间索引时未考虑整数溢出。
解决方法：使用int mid = left + (right - left) / 2;而非(left + right) / 2。

问题3：性能低下

原因：数据集未排序或算法实现有误。
解决方法：确保输入数组已排序，并仔细检查算法逻辑。

通过上述方法，可以有效避免和解决在使用向量进行二进制搜索时可能遇到的问题。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Facebook搜索的向量搜索

概述不管是搜索系统还是推荐系统中，向量召回都是一个不可或缺的一个部分，担负着重要的作用。...为应对大规模数据问题，通常采用多阶段的架构，分为召回，粗排，精排，重排等多个步骤，每一个阶段的数据量会极大较少，为后续的精细化排序节约大量的时间，可以由下图所示：而向量召回属于召回阶段，以搜索为例，...Facebook于2020年公布了其向量召回系统[1]。Facebook将向量召回应用在社交网络的搜索中，针对其场景的特殊性，提出将用户的上下文环境考虑进query的向量中。...特征工程在FaceBook的向量搜索中，基于其特定的场景，使用到的特征包括query和document的文本特征、位置特征、社交Embedding特征。文本特征。...在文本特征中使用的是字符n元组，这样，相比词n元组，得到的模型效果更好。位置特征。在本地广告、小组或事件的搜索场景中，位置匹配是很重要的。query侧增加搜索人的城市，地区，国家和语言。

2.5K5 0

探索向量搜索的世界：为什么仅有向量搜索是不够的？

另一方面，我们之所以现在这么关注向量搜索，实际上我们的内驱力更多地来自于与大模型相结合以提升理解能力、总结能力、交互能力与生成能力。然而，大模型的使用并不依赖于向量搜索！...在本文中，我们将探索向量搜索的世界，并分析为什么仅有向量搜索是不够的。我们将从以下几个方面进行讨论：向量搜索是什么？它有什么优势和局限性？什么时候应该使用向量搜索？什么时候应该使用其他搜索技术？...什么时候应该使用向量搜索？什么时候应该使用其他搜索技术？向量搜索并不是一种万能的搜索技术，它并不适合所有的场景和需求。我们需要根据不同的因素，如数据源，用户，需求等，来选择合适的搜索技术。...但这里需要注意的是，无论是跨语言还是跨模态，尽管我们应该在这种场景中选择使用向量搜索，但这并不意味着向量搜索是唯一的选择。另外，这种选择应该是灵活可变的。...毕竟，我们的主要目标是能够高效、准确地找出相关的文档来作为背景知识，将其与问题一起交给大模型处理。如何搜得快、搜得准、能适应足够多的使用场景，绝不应该是只使用基于密集向量的向量相似性搜索来解决的。

3.1K16 5

搜索的未来是向量

向量搜索提供了传统关键词搜索无法实现的可能性。向量搜索的工作原理向量搜索利用先进的机器学习模型将文本数据转换为高维向量，捕捉词语和短语之间的语义关系。...通过将查询和文档映射到同一个向量空间，它可以衡量它们的相似性，即使用户的输入不精确或含糊，也能实现精确直观的搜索体验。这种方法显著提高了搜索结果的准确性和相关性，使其成为现代信息检索系统的强大工具。...通过理解上下文和语义，向量搜索提供高度符合用户意图的结果，即使查询中没有确切的关键词。这种能力使向量搜索成为改善用户体验的宝贵工具，因为它能够针对不精确或描述性的查询提供精确准确的搜索结果。...当用户使用这个简单的数据集搜索类似“这个字段应该使用什么数据类型？”这样的短语时，搜索引擎会将查询转换为向量表示。然后，它将此查询向量与数据集的向量进行比较。...即使样本数据集中没有“这个字段应该使用什么数据类型？”的确切字词，向量搜索也能识别出查询的上下文和语义与“您的文本字符串在此处”相似。因此，搜索引擎可以根据向量的相似性返回最相关的结果。

1361 0

向量数据库：使用Elasticsearch实现向量数据存储与搜索

向量数据库：使用Elasticsearch实现向量数据存储与搜索一、简介 Elasticsearch在7.x的版本中支持向量检索[2] 。...出于这个原因，建议使用查询参数来限制匹配文档的数量（类似二次查找的逻辑，先使用match query检索到相关文档，然后使用向量函数计算文档相关度）。 ...例如，不要在循环中使用这些函数来计算文档向量和多个其他向量之间的相似性。如果需要该功能，可以通过直接访问向量值来重新实现这些函数。...为了更好的利用DSL优化器，可以使用参数的方式提供一个查询向量。 4. 检查缺失值：如果文档中没有用于执行向量函数的向量字段的值，会抛出错误。...：使用Elasticsearch实现向量数据存储与搜索 [2] 向量检索: https://github.com/elastic/elasticsearch/blob/e8c382f89553e3a7aaafa88a5934288c1192acdc

3.5K2 0

使用 Elasticsearch 进行大规模向量搜索的设计原则

在这一系列博客文章中，我们将探讨在各种数据集和用例中使用 Elasticsearch 运行大规模向量搜索的成本和性能。...在这篇文章中，我们使用了默认的浮点向量自动量化。这可以在不影响检索质量的情况下，将运行向量搜索的 RAM 成本减少 75%。我们还提供了有关具有数十亿向量的索引在合并和量化时的影响的见解。...大规模基准测试粗略估算使用 1.38 亿文档和 1024 维向量，存储 MSMARCO-v2 数据集的原始浮点向量的大小超过 520GB。使用蛮力搜索整个数据集在单个节点上需要几个小时。...num_candidates：用于限制最近邻图上的搜索队列的大小。num_rescore：使用全保真向量重新评分的段落数量。使用自动量化，重新评分略多于 k 的向量可以显著提高召回率。...我们正在不断努力优化和寻找增强向量搜索能力的机会。敬请关注系列的下一部分，我们将深入探讨向量搜索用例的成本和效率，特别是研究 int4 和二进制压缩技术的潜力。

5906 2

向量搜索的秘诀：训练嵌入模型

为了充分利用生成式机器学习模型的无数优势，各组织纷纷将数据嵌入到各种形式的向量相似性搜索中。许多组织专注于提示工程，以获得最佳的即席问答、自然语言搜索和数据摘要结果。...据Marqo 首席执行官 Tom Hamer 称，“向量相似性搜索的质量取决于向量嵌入的质量。” 优化结果需要对创建嵌入并（通常）执行基于嵌入的搜索的模型进行微调或训练。...据 Marqo 首席技术官 Jesse Clark 称，使用通用嵌入模型（例如 OpenAI 或 Google 提供的模型）的组织，其搜索结果可能比使用不支持摘要或语义搜索的关键字搜索算法 BM25 的结果更差...Marqo Cloud 是一个基于 API 的平台，用于访问语言模型、微调嵌入模型以及使用其向量搜索引擎实现 AI 检索。...这是使用几乎任何形式的统计 AI 的现实。“向量搜索仍然是一个具有机器学习模型的机器学习系统，我们对机器学习系统的了解是它们确实需要重新训练，”克拉克说。

1291 0

复合索引：向量搜索的高级策略

在向量搜索领域，我们拥有多种索引方法和向量处理技术，它们使我们能够在召回率、响应时间和内存使用之间做出权衡。...了解何时何地应用不同的索引或向量转换技术，以及何时避免使用它们，对于优化搜索性能至关重要。在本文中，我们将深入探讨如何利用Facebook AI的相似性搜索工具（Faiss）来构建高性能的复合索引。...精炼：在搜索过程中，精炼步骤使用原始非压缩向量的距离计算来重新排序搜索结果，以提高搜索的精度。这一步骤也可以通过另一种索引方法来实现。...OPQ对输入向量进行变换；利用倒排文件（IVF）进行向量的粗量化，以实现高效的搜索；在每个IVF单元内应用乘积量化（PQ）来压缩向量，减少内存使用；搜索后，使用原始扁平向量（RFlat）重新排序结果...如果需要减少内存使用，可以考虑使用PQ或OPQ来压缩向量，但这可能会降低召回率并增加搜索时间。

4421 0

【译】向量搜索的相似度度量

内积内积是如何工作的？何时应该使用内积？其他有趣的向量相似度或距离度量汉明距离杰卡德指数向量相似度搜索度量总结向量相似度度量向量可以表示为数字列表或方向和大小。...如果使用内积作为相似性度量，那么更大的长度（或幅度）将优先考虑，这意味着具有较大长度的向量将被视为更相似，即使它们的实际方向可能相差很大。这可能导致不准确的搜索结果。...在向量嵌入方面，汉明距离只适用于二进制向量。浮点向量嵌入[12]是由神经网络的倒数第二层输出的，由 0 到 1 之间的浮点数。...正如你所看到的，两个向量嵌入之间的汉明距离几乎总是等于向量本身的长度。每个值的可能性太多了。这就是为什么汉明距离只能应用于二进制或稀疏向量。...向量相似度搜索度量总结在这篇文章中，我们了解了三种最有用的向量相似度搜索度量：L2（也称为欧几里得）距离、余弦距离和内积。每种度量都有不同的使用场景。欧几里得距离用于我们关心大小的差异。

1461 0

淘宝搜索的向量召回算法MGDSPR

概述前面已经介绍了多个搜索召回中的向量召回算法，如Facebook的EBR，Que2Search，京东的DPSR。...在MGDSPR中着重要解决的问题是如何优化相关性的问题，这一点在其他的文章中很少提及，但是搜索中的相关性问题对于向量召回来说是避不开的一个问题，而且是一个较难解决的一个问题。 2....这里直接对分词后的词向量取均值，而没有使用序列的方式学习，文中给出的解释是关键词缺乏语法结构，但是在 q_{seg\_seq} 中却对分词结果使用了Transformer，这一点是存在矛盾的。...相关性控制模块在搜索系统的向量召回中，存在很大的相关性的问题，尽管在模型上已经对query进行多粒度的建模，但是对于电商系统来说，还存在着品牌，型号，类目，颜色等更细粒度的相关性，为了能对系统具有更好的相关性控制能力...，这部分在我们的实际使用中是可以选择性使用的。

9553 0

干货 | Elasticsearch 向量搜索的工程化实战

最近我们需要对行业知识库进行建模，其中可能会涉及到实体匹配、模糊搜索、向量搜索等多种召回和算分方式，最终我们选择了通过 ES 7.X （最终选择 7.10）里的新功能，Dense vector 帮忙一起完成这部分的需求...2、技术选型 2.1 解决方案需求支持向量搜索支持多维度筛选、过滤吞吐速率学习、使用成本运维成本 2.2 使用场景设计离线数据准备在离线数据构建完成后，存入该引擎引擎对数据中各字段进行索引...，我们更倾向于使用 ES 的原生功能，所以选择 ES 的原生向量搜索功能作为我们的最终选择。...从多数据源采集数据数据清洗及预处理通过算法引擎提取知识通过算法引擎将知识转换为向量将知识的基础信息连同向量数据存入 ES 3.2 在线数据召回部分从前端获取搜索条件通过 query 理解模块进行检索条件解析...从 ES 中进行搜索对结果进行分数调整返回前端 4、ES 向量搜索的使用示例 4.1 索引设计 Settings： { "settings": { "number_of_shards

7.8K4 2

使用 E5 嵌入模型进行多语言向量搜索

在这篇文章中，我们将介绍多语言向量搜索。我们将使用 Microsoft E5 多语言嵌入模型，该模型在零样本和多语言设置中具有最先进的性能。...我们将介绍多语言嵌入的一般工作原理，以及如何在 Elasticsearch 中使用 E5。图片近年来，向量搜索席卷了搜索和信息检索领域。...向量搜索是促进大型语言模型 (LLM) 的重要上下文来源，它为生成式 AI 时代越来越多的现代搜索体验提供动力。为什么要使用多语言嵌入？...当研究人员第一次开始使用和训练向量搜索的嵌入模型时，他们使用了他们能找到的最广泛可用的数据集。然而，这些数据集往往都是英语。查询是英文的，维基百科索引的文章也是英文的。...通常我们谈论向量搜索克服了词法搜索的语义不匹配和词汇不匹配的限制。语义不匹配是指我们在查询中使用的标记（单词）与索引文档中的形式相同，但含义不同的情况。

2.6K3 0

向量处理：了解搜索领域的这场新革命

通过将文本（和其他）信息转换为数值向量，语义搜索使计算机能够理解和比较不同内容的含义。语义搜索是关于查找和评分相关数据，使用上下文和意图。...在机器学习中，通常使用具有数百甚至数千维度的向量来表示复杂的概念和关系。...在PostGreSQL中创建向量表，然后对其运行向量搜索（来自Vadim Tkachenko的演示文稿）。举例说明了如何使用向量查找电影推荐。...ANN通过使用索引技术预处理数据并加快搜索速度来解决这一挑战。这些技术，例如IVFFlat和HNSW，创建相关向量的集群或图，允许搜索算法专注于向量空间的特定区域，从而减少所需的比较次数。...如果要更改大量数据，这也是要使用的索引。使用HNSW技术突出显示相关的电影。向量处理：未来的搜索虽然向量处理具有显著优势，但也需要注意一些挑战。

1211 0

增强文本搜索的SQL向量数据库

性能测试表明，将 Tantivy 的全文搜索引擎库集成到向量搜索中可以显著提高速度和性能。...为了增强文本搜索功能，MyScaleDB，一个针对向量搜索进行了优化的 ClickHouse 开源分支，集成了 Tantivy，一个全文搜索引擎库。...它还使在检索增强生成 (RAG) 中利用 MyScaleDB 的用户受益，其中使用了大语言模型 ( LLM )，结合向量和文本搜索以提高准确性。...由于 Tantivy 是用 Rust 编写的，因此可以使用 Corrosion 轻松地将其与 C++ 程序集成。...集成过程为 Tantivy 构建 C++ 封装器原始 Tantivy 库不能直接在 MyScaleDB 中使用。

2921 0

突破性进展：在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索

在这篇博客中，我们将探讨 BBQ 在 Lucene 和 Elasticsearch 中的应用，重点关注召回率、高效的按位操作和优化存储，以实现快速、准确的向量搜索。什么是“更好的”二进制量化？...虽然向量本身存储为单比特值，但查询仅量化到 int4。这显著提高了搜索质量，同时不会增加存储成本。按位操作实现快速搜索。查询向量被量化并转换为允许高效按位操作的方式。...使用更好的二进制量化进行索引索引过程很简单。请记住，Lucene 构建单独的只读段。当新段中有向量时，质心会逐步计算。段刷新后，每个向量围绕质心进行归一化并量化。...为了高效使用非对称量化，我们创建了所有向量的临时文件，将其量化为 4 位查询向量。因此，当向量添加到图中时，我们首先：获取存储在临时文件中的已量化查询向量。使用现有的比特向量正常搜索图。...此数据集包含 138M 个 1024 维的浮点向量。如果不进行任何量化，这需要大约 535 GB 的内存和 HNSW。使用更好的二进制量化，估计内存需求下降到大约 19GB。

1941 1

贝壳找房基于Milvus的向量搜索实践（一）

向量搜索:也叫最邻近搜索，是指按照一定的相似/距离算法[9-12]，从指定集合中搜索(计算)出与输入的某个向量最相似的N个向量(即topN)。...2.背景随着计算机技术及机器学习技术的发展，特征向量作为一种对多媒体数据(复杂文本、语音、图片)的描述方式，逐渐成熟起来，而向量搜索(向量相似计算)也逐渐成为一种通用的需求。...近些年，贝壳找房业务迅猛发展，在搜索、推荐、图谱、智能客服等业务场景下，对向量搜索提出了比较强的需求。...面对多业务的需求，结合对业界已有工具的调研，最终选择了milvus做为底层引擎，建设了一个通用的向量搜索平台，以解决向量相似计算这个共性的问题。 3....应用层:应用层的定位是面向使用方，提供通用的向量搜索能力，同时屏蔽掉底层引擎的细节；应用层主要分为读模块、写模块以及管理模块。

2.4K1 0

贝壳找房基于Milvus的向量搜索实践（三）

1.数据存储方案第二篇中我们解决了部署方案的问题，接下来要考虑的是数据如果存储。在分布式部署情况下，Milvus是需要使用Mysql来存储元数据的[1]。...Milvus分布式部署时，数据只会写一份，如何实现数据的分布式使用呢？...由于底层资源使用对等的两份，如何没有特别的处理，不可避免会造成资源的浪费，后面内容会专门讨论解决这个问题的方案。 ? 图4 T+1数据更新策略 3....数据写入操作可以并发进行，以保证整体的写入吞吐量，但是需要使用方保证，结束写操作需要在所有写入操作之后。...方案1在实现同步阻塞方案效果的基础上，还兼顾了使用方与向量服务之间的可能网络异常(写入成功，但是没有返回给业务方，业务方重试，导致数据写入重复；Milvus在0.8.0下不能去重)；但是，增加了额外的开销

1.4K3 0

贝壳找房基于Milvus的向量搜索实践（二）

1.遇到了哪些问题在项目调研、实施以及最终上线使用过程中，我们遇到了不少的问题，包括：如何解决在满足响应时间的条件下，解决横向扩展的问题。...2.低时延、高吞吐的要求互联网垂直搜索领域，特别是电商行业，对于特定业务的搜索，热数据的量级一般是可控的(百万级、千万级)，一般情况下，对响应时间和整体的吞吐量(QPS)都有比较高的要求。...，单个查询的响应时间提升，使用多个物理资源来分担单个查询的开销。...在这种情况下，通过实验发现，分段存储数据反而会使用整体的响应时间变差，因此，我们下面讨论的场景都是数据存储在一个段内。...但是，在互联网垂直搜索领域，特别是电商行业，热数据一般量级并不大，完全可以放在一个分段（文件）中。

1.2K2 0

Elastic 5分钟教程：使用向量相似性实现语义搜索

图片想知道向量搜索如何帮助您交付您的客户期待已久的搜索体验就像，即使你不知道术语也能找到你想要的东西或搜索非结构化数据，如图像这个视频解释了传统的基于关键字的搜索的局限性以及通过向量搜索实现的语义搜索如何克服它们视频内容电子商务是一个很好的开始用例客户搜索有时不知道他们真正需要什么或者元数据缺失或不正确比方说...，搜索一下有条纹的蓝色T恤你会搜到一堆T恤衫但是，只有一些有条纹有些不是蓝色的有些不是T恤此演示中电子商务网站使用传统搜索这依赖于匹配的关键字匹配不良可能是由于文字描述不准确或者你的搜索引擎可能会使用其他因素对结果进行重新排序这就像是购买了哪些产品让我们来看看图像相似性搜索是如何提升这种体验的更上一层楼在这里...，您可以看到一个原型应用程序，它对产品描述和图像使用向量搜索如您所见，这种语义搜索会产生更多相关匹配你可以通过查找类似的产品来跟进它在幕后采用图像相似性搜索它的最新结果是产生了一系列非常好的匹配让我们来看看这在幕后是如何运作的在这里...，我登录到加载了相同电子商务数据的elastic集群第一您的文本查询需要矢量化将其转换为数字表示使用嵌入模型在这里您可以看到我们发出的查询让我们将其转为向量你在这里看到了吗接下来，您需要获取该向量并发出一个...KNN查询这是向量这将会找到最近的邻居相对于您的查询现在我们可以获取返回的第一个结果并调出相应的图像在您的数据库中如果你还记得这与一分钟前在互动应用中获取的图片完全相同使用向量搜索用户可以找到他们的意思不仅搜索文本还包括其他非结构化数据

2.3K7 1

使用 Unstructured.io 和 Elasticsearch 向量数据库搜索复杂文档

一旦文档被添加到 Elasticsearch 索引中，开发者可以选择许多 Elastic 的功能，包括聚合、过滤、RBAC（基于角色的访问控制）工具以及 BM25 或向量搜索功能，将复杂的业务逻辑实现到...我们将使用 Elastic 的 ELSER 模型创建稀疏向量嵌入，然后使用 Elasticsearch 作为向量数据库存储和搜索这些嵌入。...这些“智能分区和分块”策略可以提高搜索相关性并减少 RAG 应用中的幻觉。在解析数据后，我们将其存储为 Elasticsearch 向量数据库中的向量嵌入并运行搜索操作。...我们使用 Elasticsearch 向量数据库连接器将这些数据发送到 Elastic。我们还将一个管道附加到流程中，以便在导入时创建 ELSER（一种开箱即用的稀疏编码模型，用于语义搜索）嵌入。...Unstructured 将原始文档转换为 LLM 可以理解的数据的方法，加上 Elastic 作为向量数据库和搜索平台的优势，将加速你使用 AI 的构建旅程。祝你搜索愉快！

5010 0

关于向量搜索一定要预先知道的事情

为了实现搜索性能，向量数据库执行以下操作：将向量写入存储层（理想情况下具有高性能特性）。计算新向量与向量空间中已存在的一些向量采样之间的距离。使用这些距离构建索引以优化搜索性能。...从源数据到有意义的向量表示的映射是使用 AI 训练的嵌入模型实现的，以创建一个向量空间，其中相似的概念彼此紧密映射。更一般地说，向量空间是这样的：向量之间的相对距离表示它们之间的概念距离。...一种简单但效率低下的解决方案是计算所有向量之间的距离。在实践中，使用索引是最佳实践。索引是一种数据结构，例如树或图，它本质上对空间信息进行编码，从而允许检索更快地收敛到向量空间的正确位置。...因此，理解和选择正确的向量搜索算法实现对于针对每个用例优化向量数据库解决方案至关重要。有哪些流行的向量搜索算法？向量搜索背后的最流行（几乎是唯一）算法是最近邻算法。...复杂度为 O(n)：当使用维度为 300 的 Word2vec 向量查询包含 1 亿个向量的数据库时，您需要 300 亿次操作才能检索您（精确的！）最相似的 k 个向量。

1601 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭