首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

FaissPQ索引简介

随着神经网络的发展,embedding的思想被广泛的应用在搜推广、图像、自然语言处理等领域,在实际的工业场景中,我们常常会遇到基于embedding进行文本、图像、视频等物料的相关内容检索问题,这类问题通常要求在几毫秒的时间内完成百万甚至亿级别候选物料上的检索。 在这类问题中,主要需要考虑的三个问题是速度、内存以及准确性,其中速度是必须要解决的问题,同时我们希望能在保证速度的基础上,尽可能的提升准确率,降低内存占用。因此可以想到,我们是不是可以通过一定的方法,利用内存和准确率来换取查询速度的提升。 Faiss是由FacebookAI团队开发的向量检索库,提供了多种向量查询方案,可以实现在亿级别候选物料上的毫秒级查询,是目前最主流的向量检索库。在Faiss中,把具体的查询算法实现称为索引,由于faiss中提供了多种类型的索引,因此了解其中不同索引索引的实现方式对于我们的应用就尤为关键。

01

第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-481 阿尔法乘积

这段时间我会把蓝桥杯官网上的所有非VIP题目都发布一遍,让大家方便去搜索,所有题目都会有几种语言的写法,帮助大家提供一个思路,当然,思路只是思路,千万别只看着答案就认为会了啊,这个方法基本上很难让你成长,成长是在思考的过程中找寻到自己的那个解题思路,并且首先肯定要依靠于题海战术来让自己的解题思维进行一定量的训练,如果没有这个量变到质变的过程你会发现对于相对需要思考的题目你解决的速度就会非常慢,这个思维过程甚至没有纸笔的绘制你根本无法在大脑中勾勒出来,所以我们前期学习的时候是学习别人的思路通过自己的方式转换思维变成自己的模式,说着听绕口,但是就是靠量来堆叠思维方式,刷题方案自主定义的话肯定就是从非常简单的开始,稍微对数据结构有一定的理解,暴力、二分法等等,一步步的成长,数据结构很多,一般也就几种啊,线性表、树、图、再就是其它了。顺序表与链表也就是线性表,当然栈,队列还有串都是属于线性表的,这个我就不在这里一一细分了,相对来说都要慢慢来一个个搞定的。蓝桥杯中对于大专来说相对是比较友好的,例如三分枚举、离散化,图,复杂数据结构还有统计都是不考的,我们找简单题刷个一两百,然后再进行中等题目的训练,当我们掌握深度搜索与广度搜索后再往动态规划上靠一靠,慢慢的就会掌握各种规律,有了规律就能大胆的长一些难度比较高的题目了,再次说明,刷题一定要循序渐进,千万别想着直接就能解决难题,那只是对自己进行劝退处理。加油,平常心,一步步前进。

02

一文带你了解检索增强生成中的神兵利器 —— 近似近邻搜索

随着大语言模型Chatgpt的横空出世,大语言模型(Large Language Model, LLM)频繁地出现在公众的视野中,成为了商业、娱乐、教育等领域讨论的热点。在LLM众多的出色能力中,其强大的检索能力(Information Retrieval)能力备受瞩目。大语言模型本身不联网,但却好像能回答互联网上能搜到的大部分问题,包括包括事情发生的具体时间、人物关系和前因后果等等。然而,LLM的记忆能力和检索能力也不是无限的。比如,LLM的幻觉(Hallucination)问题就是学术界和工业界目前致力于解决的问题 [1]。幻觉指的是即使在不确定答案的情况下,LLM不但不会承认无法回答,还会以自信的口吻凭空捏造出事实,通常可以以假乱真。为了解决这一现象,许多研究方向被提了出来,而检索增强生成(Retrieval-Augmented Generation, RAG)就是其中的一种方法。对于用户的提问,RAG首先生成信息检索请求,然后在数据库中寻找相关的信息,最后,结合相关信息和用户的提问向大语言模型进行提问(流程示意图见图1)。因为在数据库中寻找到的信息都是真实可靠的,大语言模型会根据提供的真实数据进行回答,减少其幻觉的可能。不仅如此,RAG的范式极大的扩展了大语言模型的应用场景,使得其可以实现大规模内容的记忆与整理。许多应用也由此催生出来,包括虚拟人设、文章理解/总结等。在RAG中,如何在大量的内容向量(数以万计)中找到与检索向量相匹配的内容直接决定了生成的质量和效率。能否在短时间内得到丰富翔实的内容对于最后回答的生成起到了近乎决定行性的作用。在本篇文章中,我们将介绍近似近邻搜索的概念,并介绍其中三种常见的方法。

06

第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-677 乘积最大

这段时间我会把蓝桥杯官网上的所有非VIP题目都发布一遍,让大家方便去搜索,所有题目都会有几种语言的写法,帮助大家提供一个思路,当然,思路只是思路,千万别只看着答案就认为会了啊,这个方法基本上很难让你成长,成长是在思考的过程中找寻到自己的那个解题思路,并且首先肯定要依靠于题海战术来让自己的解题思维进行一定量的训练,如果没有这个量变到质变的过程你会发现对于相对需要思考的题目你解决的速度就会非常慢,这个思维过程甚至没有纸笔的绘制你根本无法在大脑中勾勒出来,所以我们前期学习的时候是学习别人的思路通过自己的方式转换思维变成自己的模式,说着听绕口,但是就是靠量来堆叠思维方式,刷题方案自主定义的话肯定就是从非常简单的开始,稍微对数据结构有一定的理解,暴力、二分法等等,一步步的成长,数据结构很多,一般也就几种啊,线性表、树、图、再就是其它了。顺序表与链表也就是线性表,当然栈,队列还有串都是属于线性表的,这个我就不在这里一一细分了,相对来说都要慢慢来一个个搞定的。蓝桥杯中对于大专来说相对是比较友好的,例如三分枚举、离散化,图,复杂数据结构还有统计都是不考的,我们找简单题刷个一两百,然后再进行中等题目的训练,当我们掌握深度搜索与广度搜索后再往动态规划上靠一靠,慢慢的就会掌握各种规律,有了规律就能大胆的长一些难度比较高的题目了,再次说明,刷题一定要循序渐进,千万别想着直接就能解决难题,那只是对自己进行劝退处理。加油,平常心,一步步前进。

02
领券