首页
学习
活动
专区
工具
TVP
发布

山行AI

山行AI(原开发架构二三事),后续专注于AI应用领域
专栏作者
291
文章
642483
阅读量
56
订阅数
langchain中的Advanced RAG和ReRank技术一览
在人工智能盛起的当下,前有ChatGPT珠玉在前,后有Sora(聊聊火出圈的世界AI大模型——Sora)横空出世的消息铺天盖地,笔者作为一名资深数据科学从业者,也进行了很多的探索。最近梳理了一些关于Advanced RAG和ReRank相关的资料,整理到本文中和大家一起分享。
山行AI
2024-03-06
1K0
AI跑车引擎之向量数据库一览
1.Milvus:一个开源的向量相似性搜索引擎,专为人工智能和机器学习应用程序设计。它支持多种相似性度量标准,并且具有很高的可扩展性,使其成为大规模部署的热门选择。2.Pinecone:一个关注简单易用的托管向量数据库服务。它提供了一个完全托管的、无服务器的环境,用于实时向量相似性搜索和推荐系统,减轻了运维负担。3.Vespa:一个实时大数据处理和搜索引擎,适用于各种应用场景,包括搜索、推荐和广告。Vespa 具有灵活的数据模型和内置的机器学习功能,可以处理大规模数据集。4.Weaviate:一个开源的知识图谱向量搜索引擎,它使用神经网络将实体和关系映射到高维空间,以实现高效的相似性搜索。Weaviate 支持自然语言处理、图查询和模型训练等功能。5.Vald:一个高度可扩展的、云原生的分布式向量搜索引擎,旨在处理大规模的向量数据。Vald 支持多种搜索算法,并通过 Kubernetes 部署和管理,提供高可用性和弹性。6.GSI:Global State Index (GSI) 是一个分布式、可扩展的向量搜索引擎,用于全球状态估计。GSI 利用不同节点间的局部信息,通过一致性哈希和向量近似搜索来实现高效的全球状态查询。7.Qdrant:一个开源的、高性能的向量搜索引擎,支持大规模数据集。Qdrant 提供了强大的索引、过滤和排序功能,以及丰富的 API,使其成为构建复杂应用程序的理想选择。
山行AI
2023-06-14
1.9K0
elasticsearch之Roaring Bitmaps的结构
如果你是刚刚接触搜索引擎,你可能会感到奇怪,构建搜索引擎中存储块的一个很重要的原因是搜索引擎能够有效地压缩和快速解码有序的数字集合。 为什么这个很有用?你可能知道elasticsearch的分片,是基于lucene的索引基础上的,将数据分割成一个个小片段(segment)进行存储的, 然后有规律地将这些小片段进行合并。在每个片段里面,每个文档都会有一个从0到2的31次方减1之间的唯一标识。这种结构像是数组的下标一样: 它存储在任何地方,而且足以标识一个条目。文档有序地存储在片段中,而且doc ID就是文档在存储片段中的索引。所以存储片段中的第一篇文档 的doc ID为0,第二篇为1。直到最后一篇文档,它的doc ID和这个存储片段中所有文档的数量减一是一样的。
山行AI
2019-06-28
4K2
elasticsearch深入搜索一之近似匹配
1. 从上面几种分词器的对比中可以看出,拼音分词器主要是把中文转换成拼音的方式进行分词; 2. ik_max_word分词和ik_smart分词器主要是索引单词而不是索引独立的单词; 3. standard分词器主要是索引独立的单词而不对词项进行索引。
山行AI
2019-06-28
2.5K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档