腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

山行AI

山行AI（原开发架构二三事），后续专注于AI应用领域

专栏作者

291

文章

642483

阅读量

56

订阅数

langchain中的Advanced RAG和ReRank技术一览

search 模型搜索算法搜索引擎

在人工智能盛起的当下，前有ChatGPT珠玉在前，后有Sora（聊聊火出圈的世界AI大模型——Sora）横空出世的消息铺天盖地，笔者作为一名资深数据科学从业者，也进行了很多的探索。最近梳理了一些关于Advanced RAG和ReRank相关的资料，整理到本文中和大家一起分享。

2024-03-06

1K0

AI跑车引擎之向量数据库一览

数据库搜索引擎数据搜索索引

1.Milvus：一个开源的向量相似性搜索引擎，专为人工智能和机器学习应用程序设计。它支持多种相似性度量标准，并且具有很高的可扩展性，使其成为大规模部署的热门选择。2.Pinecone：一个关注简单易用的托管向量数据库服务。它提供了一个完全托管的、无服务器的环境，用于实时向量相似性搜索和推荐系统，减轻了运维负担。3.Vespa：一个实时大数据处理和搜索引擎，适用于各种应用场景，包括搜索、推荐和广告。Vespa 具有灵活的数据模型和内置的机器学习功能，可以处理大规模数据集。4.Weaviate：一个开源的知识图谱向量搜索引擎，它使用神经网络将实体和关系映射到高维空间，以实现高效的相似性搜索。Weaviate 支持自然语言处理、图查询和模型训练等功能。5.Vald：一个高度可扩展的、云原生的分布式向量搜索引擎，旨在处理大规模的向量数据。Vald 支持多种搜索算法，并通过 Kubernetes 部署和管理，提供高可用性和弹性。6.GSI：Global State Index (GSI) 是一个分布式、可扩展的向量搜索引擎，用于全球状态估计。GSI 利用不同节点间的局部信息，通过一致性哈希和向量近似搜索来实现高效的全球状态查询。7.Qdrant：一个开源的、高性能的向量搜索引擎，支持大规模数据集。Qdrant 提供了强大的索引、过滤和排序功能，以及丰富的 API，使其成为构建复杂应用程序的理想选择。

2023-06-14

1.9K0

elasticsearch之Roaring Bitmaps的结构

缓存 lucene/solr 编程算法搜索引擎

如果你是刚刚接触搜索引擎，你可能会感到奇怪，构建搜索引擎中存储块的一个很重要的原因是搜索引擎能够有效地压缩和快速解码有序的数字集合。为什么这个很有用？你可能知道elasticsearch的分片，是基于lucene的索引基础上的，将数据分割成一个个小片段(segment)进行存储的，然后有规律地将这些小片段进行合并。在每个片段里面，每个文档都会有一个从0到2的31次方减1之间的唯一标识。这种结构像是数组的下标一样：它存储在任何地方，而且足以标识一个条目。文档有序地存储在片段中，而且doc ID就是文档在存储片段中的索引。所以存储片段中的第一篇文档的doc ID为0，第二篇为1。直到最后一篇文档，它的doc ID和这个存储片段中所有文档的数量减一是一样的。

2019-06-28

4K2

elasticsearch深入搜索一之近似匹配

1. 从上面几种分词器的对比中可以看出，拼音分词器主要是把中文转换成拼音的方式进行分词； 2. ik_max_word分词和ik_smart分词器主要是索引单词而不是索引独立的单词； 3. standard分词器主要是索引独立的单词而不对词项进行索引。

2019-06-28

2.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态