如何使用solr 6.4.1配置Tika OCR。我索引的文档包括PDF,图像和MS办公文档,但问题是,Tika没有从图像中提取文本,也没有从PDF和MS办公文档中提取文本。为此,我研究了使用Tika OCR。为此,我正在安装tika-app-1.7.jar和Tesseract,但是我不知道如何用我的solr核心来配置它们。
发布于 2017-03-26 06:42:22
你不需要做什么特别的事。只需为您的发行版安装Tesseract OCR并在系统上安装它。确保您的PATH变量有一个针对Tesseract主目录的条目,并设置了TESSDATA_PREFIX变量并指向Tesseract主目录。重新启动Solr,你就可以走了。当您通过/update/extract处理程序将文档推送到索引时,您应该能够看到OCR组件。
PATH
TESSDATA_PREFIX
/update/extract
默认情况下,Tesseract只提供英国型号的船舶。从这里获取其他语言的模型。
https://stackoverflow.com/questions/43017921
相似问题