问用solr 6.4.1配置Tesseract
EN

Stack Overflow用户

提问于 2017-03-25 15:00:21

回答 1查看 2K关注 0票数 2

如何使用solr 6.4.1配置Tika OCR。我索引的文档包括PDF，图像和MS办公文档，但问题是，Tika没有从图像中提取文本，也没有从PDF和MS办公文档中提取文本。为此，我研究了使用Tika OCR。为此，我正在安装tika-app-1.7.jar和Tesseract，但是我不知道如何用我的solr核心来配置它们。

apache-tika

sunspot-solr

solr

solr4

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-26 06:42:22

你不需要做什么特别的事。只需为您的发行版安装Tesseract OCR并在系统上安装它。确保您的PATH变量有一个针对Tesseract主目录的条目，并设置了TESSDATA_PREFIX变量并指向Tesseract主目录。重新启动Solr，你就可以走了。当您通过/update/extract处理程序将文档推送到索引时，您应该能够看到OCR组件。

默认情况下，Tesseract只提供英国型号的船舶。从这里获取其他语言的模型。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43017921

复制

相似问题

问用solr 6.4.1配置Tesseract
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用solr 6.4.1配置TesseractEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用solr 6.4.1配置Tesseract
EN