快速内存倒排索引

文章/答案/技术大牛

发布

4回答

indexing、lucene、lucene.net、information-retrieval

我正在寻找一个通用倒排索引的快速内存实现。我所需要的就是为几百万个实体存储具有权重的特征，并使用倒排索引通过各种距离函数来计算实体之间的相似度。谢谢。

浏览 0提问于2011-07-07得票数 6

2回答

弹性搜索如何保持索引

elasticsearch

它是否使用倒排索引，它是如何在内存中表示的？它是如何存储在磁盘上的？它是如何从磁盘加载到内存的？它如何如此快速地合并索引(我的意思是在搜索时，它如何如此快速地合并两个列表)？

浏览 4提问于2014-02-26得票数 3

回答已采纳

1回答

实时搜索引擎的算法是什么？

c++、c、algorithm、full-text-search、inverted-index

倒排索引的设计目的是为了快速搜索，但不是那么容易更新。据我所知，增量索引用于更新倒排索引数据。那么实时搜索的算法或主要概念是什么，它们是如何做到的呢？

浏览 1提问于2012-03-30得票数 3

回答已采纳

7回答

应用程序的内存搜索索引占用了太多的内存-有什么建议吗？

c#、optimization、search、memory、search-engine

在我们的桌面应用程序中，我们使用实现了一个简单的搜索引擎。不幸的是，我们的一些用户的数据集可能会变得非常大，例如，在创建倒排索引之前，需要占用大约1 1GB的内存。倒排索引本身占用大量内存，几乎与索引的数据一样多(另有1 1GB的RAM)。显然，这会产生内存不足错误的问题，因为达到了32位Windows的限制，每个应用程序只能使用2 2GB的内存，或者使用规格较低的计算机的用户难以满足内存需求。我

浏览 2提问于2008-10-21得票数 6

回答已采纳

6回答

存储倒排索引

python、information-retrieval、inverted-index

我已经使用Hadoop/Python创建了一个完整的倒排索引。Hadoop将索引输出为(word，documentlist)对，并将其写入文件。为了快速访问，我使用上面的文件创建了一个字典(哈希表)。我的问题是，我如何在磁盘上存储这样的索引，同时又具有快速的访问时间。目前，我正在使用python pickle模块存储字典并从中加载，但它会立即将整个索引放入内存(或者是这样吗？)。请建议一种存储和搜索索引的有效方法。我的字典

浏览 3提问于2010-09-11得票数 5

回答已采纳

1回答

Lucene的倒排索引是否存储在内存中？

solr、lucene、inverted-index

Lucene创建了一个倒排索引。该索引存储在文件系统的多个文件中，如文档- 中所述我很好奇在搜索时这是如何工作的。倒排索引是否会被加载并保存在内存中，这样它就不需要访问文件系统。如果没有，有没有办法把它保存在内存中，这样我的搜索速度就会快很多。

浏览 3提问于2014-11-05得票数 0

1回答

在分布式环境下建立倒排索引

elasticsearch、hbase、information-retrieval

如果必须从头开始构建分布式倒排索引，您会使用哪些工具/库/平台？elasticseach (我需要带日期约束的部分TF )只做了我需要的部分，并考虑使用hbase构建倒排索引，但想知道是否有更合理的选择(我不会全部放入内存，最初将研究缓存)。

浏览 0提问于2014-01-29得票数 0

3回答

正向指数和倒指数为什么？

solr、elasticsearch、lucene、inverted-index、forward-indexing

我读到了倒排索引(被Solr、弹性搜索等文本搜索引擎使用)和我所理解的(如果我们以"Person“为例)：John -> PersonId(1), PersonId(2),为什么我们有前瞻性(或常规数据库索引)呢？或者换句话说，在什么情况下，常规索引是有用的？请解释一下。谢谢。

浏览 6提问于2015-08-01得票数 14

1回答

数据库中存储整数和位集的数组

python、database、arrays

我正在构建一个小型图像搜索引擎，它使用的图像描述符既是二进制数又是整数值(numpy)数组，这两个都是“键”，这应该是倒排文件式方法的基础。该值只是图像名称/标识符的来源。我正在寻找一种具有python接口的数据库/缓存解决方案，它可以让我快速搜索这些键，而不用担心内存和磁盘管理。

浏览 1提问于2011-08-28得票数 0

1回答

文档的Elasticsearch索引如何成为倒排索引？

elasticsearch

我知道您可以创建一个索引，向其中添加文档，然后使用REST API列出所有这些文档。我知道什么是倒排索引。但是如何将文档列表转换为倒排索引呢？这两个都被称为“索引”，但是这是相同的索引，但是映射了吗？或者是一个完全不同的索引(所以创建倒排索引需要两个索引)？如果是这样，我是否要用不同的名称单独创建它？

浏览 3提问于2019-07-09得票数 0

3回答

默认情况下，在文本字段上禁用字段。设置fielddata=true

ruby-on-rails、elasticsearch、searchkick

在fielddata=true上设置foo_name，以便通过取消倒排索引来加载内存中的现场数据。但请注意，这可以使用大量内存。在fielddata=true上设置foo_name，以便通过取消倒排索引来加载内存中的现场数据。但请注意，这可以使用重要内存。在fielddata=true上设置foo_name，以便通过取消倒排索引来加载内存中的现场数据。但请注意，这可以使用重要内存。

浏览 4提问于2017-02-10得票数 3

1回答

B树指数还是倒排指数？

indexing、binary-tree、inverted-index

以下是我对两者的理解倒排索引:-通常用于全文搜索。那么，b/w树指数和倒排指数有什么区别呢？在我看来，它们是一样的

浏览 0提问于2017-11-28得票数 6

1回答

除了弹性搜索中的倒排索引外，内存中装载了什么，这使得搜索速度如此之快？

elasticsearch、elastic-stack、elasticsearch-5

所有的jsons都在内存中，还是只有倒排的索引和映射将在内存中24*7？

浏览 1提问于2018-12-05得票数 0

2回答

为什么Lucene在倒排索引时使用数组而不是哈希表？

arrays、indexing、lucene、hashmap、hashtable

我当时正在看阿德里安·格兰德的，他指出的一点是，Lucene使用排序数组来表示字典中倒排索引的一部分。使用排序数组而不是哈希表(“经典”倒排索引数据结构)背后的理由是什么？哈希表提供O(1)插入和访问，在我看来，这对快速处理查询和合并索引段有很大帮助。我认为哈希表的唯一缺点是内存占用更大(这确实是一个问题)和较少的缓存友好性(尽管像查询排序数组这样的操作需要二进制搜索，这就像缓存不友好一样)。那怎么回事？

浏览 3提问于2017-07-21得票数 6

回答已采纳

2回答

lucene如何在倒排索引中使用跳过列表？

lucene、inverted-index、skip-lists

在一些博客和lucene网站上，我知道lucene在倒排索引中使用数据结构“跳过列表”。但我对此有些困惑。 1:一般情况下，跳表可以在内存中使用，但倒排索引存储在磁盘中。那么lucene如何在索引上进行搜索时使用它呢？只是在磁盘上扫描还是加载到内存？

浏览 2提问于2012-12-03得票数 4

回答已采纳

1回答

构建倒排索引表的复杂性

string、performance、algorithm、optimization、inverted-index

,m)创建一个倒排索引。我的倒排索引还有一些特殊之处：A中的字母表是按顺序排列的，如果在倒排索引中a_i包含了一个字符串(比如S_2)，那么a_j (j=i+1,i+2,...简而言之，每个字符串在倒排列表中只出现一次。我的问题是如何以快速有效的方式建立这样的列表？任何时间复杂度都是有界的？那么我的倒排列表应该是：b: S2 (since S1 has appeared previously, so we

浏览 3提问于2012-09-06得票数 0

回答已采纳

2回答

散列索引与倒排索引

full-text-search、relational-database、hashtable、inverted-index

据我所知，散列/倒排索引将值/单词分别映射到记录/文档。然而，散列索引中的插入复杂度较低(因为它会在溢出的情况下添加一个新的存储桶)，但倒排索引中的插入复杂度更高(因为维护文档ID的排序列表)。

浏览 3提问于2015-04-04得票数 2

1回答

在ElasticSearch中存储嵌套数据

elasticsearch

我有以下数据模型：标题子-包含更多主题如有任何建议，我们将不胜感激

浏览 3提问于2015-08-05得票数 0

1回答

使用Lucene索引作为Hadoop的输入

lucene、hadoop

我正在考虑使用Map-Reduce，因为内存中的解决方案已经被证明是非常昂贵的。我认为可以工作的作业序列要求我从倒排索引开始，然后有一个作为输入的映射作业，然后计算相似度。我并不特别想经历构建我自己的倒排索引的痛苦-我想使用一个似乎很容易生成的Lucene索引。但是，我真的不清楚如何使用Lucene索引并生成Hadoop中的Map可以使用的对。

浏览 2提问于2011-06-17得票数 3

1回答

图形表示-链表的链表

c、data-structures、graph、adjacency-list

我正在用C语言为一个简单的搜索引擎实现一个倒排索引，并打算使用邻接表。但是，我发现使用邻接表的一个缺点是，如果您不知道倒排索引中将有多少个单词，则必须假设索引中有任意数量的单词(数组元素)才能创建邻接表。这可能会导致使用过多的内存。我在想，这个问题的一个解决方案是创建一个链表的链表来表示我的倒排索引。我还没有见过链表的链表图形表示的许多示例，所以我假设它不是常用的或常规的表示。我想知道使用链表的链表来表示图形是否合适？

浏览 14提问于2018-07-26得票数 4

回答已采纳

点击加载更多