首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用solr 6.4.1配置Tesseract

用solr 6.4.1配置Tesseract
EN

Stack Overflow用户
提问于 2017-03-25 15:00:21
回答 1查看 2K关注 0票数 2

如何使用solr 6.4.1配置Tika OCR。我索引的文档包括PDF,图像和MS办公文档,但问题是,Tika没有从图像中提取文本,也没有从PDF和MS办公文档中提取文本。为此,我研究了使用Tika OCR。为此,我正在安装tika-app-1.7.jar和Tesseract,但是我不知道如何用我的solr核心来配置它们。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-26 06:42:22

你不需要做什么特别的事。只需为您的发行版安装Tesseract OCR并在系统上安装它。确保您的PATH变量有一个针对Tesseract主目录的条目,并设置了TESSDATA_PREFIX变量并指向Tesseract主目录。重新启动Solr,你就可以走了。当您通过/update/extract处理程序将文档推送到索引时,您应该能够看到OCR组件。

默认情况下,Tesseract只提供英国型号的船舶。从这里获取其他语言的模型。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43017921

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档