我使用solr 7.3.1对文档进行索引。现在,它正在索引引用位置中的每个文档(这个位置非常大,接近1TB)。它需要3-4天来索引整个文件夹。文档每小时都会被编辑、添加和删除。保持solr索引更新的最佳方法是什么?
发布于 2018-10-07 02:34:25
创建一个小应用程序,在存储文档的文档层次结构中侦听文件系统事件。
这样,一旦文档写入磁盘,您就可以将文档发送到Solr。具体如何做到这一点将取决于您的操作系统和您可以用什么语言编写代码。在Linux下有针对inotify
的钩子,您可以通过inotifywait
和bash
使用它们,也可以使用inotify
作为a python module。
这样,您可以在任何更新的文档写入磁盘后立即对其进行索引,并且可以在常规的初始索引操作运行时执行此操作。
但是,如果每个文档每小时更改一次(这意味着您必须在一小时内为每个文档编制索引),则必须扩展您的基础架构,以便能够在一小时内尽可能快地为内容编制索引,但具体如何做到这一点将取决于许多因素(例如文档类型、可用库、项目中的其他限制等),并且可能超出了这里可以很好地回答的范围。
https://stackoverflow.com/questions/52675920
复制相似问题