从Tika使用Tesseract :结果只包含换行符

、

我尝试使用Apache Tika和Tesseract for Windows解析包含扫描文本的PNG文件。尽管从命令行运行Tesseract可以正确识别文本，但Tika返回的内容仅包含换行符("\n")。C:\Users\admin\AppData\Local\Temp\apache-tika-6655676641285964446.tmp C:\Users\admin\AppData\Local\Temp\apa

浏览 17提问于2017-03-09得票数 0

1回答

在OCR PDF上与Tesseract一起使用时，Tika会复制文本

、、、

如果我使用Tika和集成Tesseract从PDF中提取文本，我会得到重复的文本:一个来自OCRed文本，另一个来自Tesseract的OCRing图像。有没有办法告诉Tika不要对PDF中带有OCR文本的图像

浏览 34提问于2017-02-20得票数 0

1回答

Tika检测到Tesseract，但没有执行任何OCR

、

我刚刚安装了Tika从Github的存储库，并试图OCR，一个PDF，其中包含扫描的文档页。java -cp tika-app/target/tika-app-1.17-SNAPSHOT.jar org.apache.tika.cli.TikaCLI /tmp/testing/sample_scanned.pdf但是，只提取元数据(尽管我事先得到了安装和使用Tesseract的确认：

浏览 10提问于2017-12-01得票数 0

1回答

图像处理在Apache Tika中是如何工作的

、、

我正在使用Apache Tika从图像中提取文本。Tika反过来使用tesseract来识别文本。但是比较Tika和Tessaract (我也安装了一个独立的命令行工具)的输出，我注意到前者比单独使用Tesseract提供了更好的结果。那么在调用捆绑的Tesseract实例之前，Tika是否使用了捆绑的图像预处理器来提高图像质量呢？或者Tika会

浏览 14提问于2019-09-06得票数 0

2回答

tika语言的变化

、、、

是否可以更改tika的langauge (默认检测)？ print(

浏览 3提问于2020-10-24得票数 0

1回答

如何使用Apache Tika* Server从PDF中提取内联图像并将其保存为文件？*

、

我在对http://localhost:9998/tika的PUT请求中使用了以下标头"X-Tika-OCRLanguage", "eng""X-Tika-PDFOcrStrategy&q

浏览 48提问于2021-06-02得票数 0

1回答

不安装Tesseract的Apache Tika* OCR*

、、、

我正在使用将PDF文件解析为文本。一些PDF文件可以包含扫描文档。Apache使用Tesseract将文本识别为图像。但是没有带有Tesseract的jar库，用户应该在操作系统中安装Tesseract作为独立的应用程序。如果不安装Tesseract，我如何使用Apache中的Tesseract？Please set the OCR_STRATEGY to NO_OCR or configure Tesseract

浏览 5提问于2017-09-16得票数 6

1回答

如何强制tika服务器使用curl排除TesseractOCRParser

、、

我使用tesseract运行tika-server-1.23.jar，并通过php使用curl从文件中提取文本。有时候，使用OCR运行需要太长时间，所以我偶尔希望排除运行中的tesseract。我可以通过插入在tika配置xml文件中，但这意味着它永

浏览 1提问于2020-12-01得票数 1

回答已采纳

1回答

通过SOLR对Tesseract的OCR支持

、、、

好日子，我正在尝试将SOLR配置为使用Tesseract OCR引擎从图像中提取文本，但还没有成功。SOLR从结构化文本文档(.xls、.pdf、doc等)中提取精细文本，但它不想调用Tesseract模块进行文本识别。我在用 /usr/share/<em

浏览 6提问于2020-01-16得票数 0

1回答

如何更改Tika传递给Tesseract* OCR的语言参数？*

、

目前，我正在使用tika-app-1.16.jar来OCR我的PDF(与Tesseract相结合)：java -jar tika-app-1.16.jar /tmp/testing/input.pdf但是，在默认情况下，它只支持英语。关于文件：页面分割模式= &quo

浏览 6提问于2017-11-24得票数 2

2回答

Python返回PDF的“无”内容，但与TIFF的

、、、、

我有一个PDF，我试图让Tika去解析。PDF不是OCR。我的机器上安装了Tesseract。我使用ImageMagik将file.tiff转换为file.pdf，所以我正在解析的tiff文件是从PDF直接转换出来的。这是密码..。from tika import parser p

浏览 1提问于2018-01-04得票数 2

回答已采纳

1回答

如何将tesseract-ocr与tika集成？

、

我需要集成的tesseract-ocr的扫描图像转换为pdf的文本。但是没有给出调用方法。当我尝试使用tesseract-ocr引用路径构建tika时，我收到以下错误测试失败: testNoConfig(org.apache.tika.parser.ocr.TesseractOCRConfigTest)：默认tesseractPath值expected:<[]>无效，但为：</home/s

浏览 0提问于2015-04-13得票数 1

1回答

如何将Tika* python与Tesseract OCR绑定？*

、、、、

tesseract 1.jpg outPutFileHere -l fraimport tikafrom tika import parserfrom tika import detector对于相同的文本图像，我没有使用tika的结果:( 你知道这是怎么回事吗

浏览 0提问于2017-04-27得票数 3

2回答

是否有一种方法可以禁用Tika中的OCR模式而不卸载tesseract？

、、、

我在我的项目中使用tika-app jar，是否有一种方法可以在tika中禁用tesseract OCR。有两件事必须保持不变：2.tika.xml不能编辑，因为tika-app.jar是从货架上使用的有办法通过设置上下文或解析器属性来禁用java代码中的配置吗？我尝试了下面的代码，但OCR仍然在解析时从图像文件中提取文本。

浏览 0提问于2019-05-21得票数 3

回答已采纳

1回答

TikaException:关闭临时资源失败-如何修复？

、、、、

我在Windows10，jre 1.8.0_181上使用Apache Tika，并且我使用Maven导入了Tika，具有以下依赖关系： <dependency>>我有以下使用Tesseract执行OCR的代码(我已经独立测试并知道它正在工作)： try在Apache Tika</e

浏览 25提问于2019-07-17得票数 0

回答已采纳

3回答

如何使用TesseractOCRParser和Tika命令行实用工具启用TikaConfig？

、、、、

我安装了Tesseract，它也在正常工作。当我试图发送一个有图像的pdf时，我得到以下信息。警告:除非您将TesseractOCRParser从默认解析器中排除在外，否则将安装Tesseract OCR并将其自动应用于图像f iles。Tesseract可能会大大减慢内容提取的速度(TIKA-2359)。从Tika 1.15 (和以前的版本)开始，Tesseract被自动调用。在Tika的未来版本中，用户可能需要通过Tesserac

浏览 1提问于2018-08-02得票数 3

回答已采纳

1回答

用solr 6.4.1配置Tesseract

、、、

如何使用solr 6.4.1配置Tika OCR。我索引的文档包括PDF，图像和MS办公文档，但问题是，Tika没有从图像中提取文本，也没有从PDF和MS办公文档中提取文本。为此，我研究了使用Tika OCR。为此，我正在安装tika-app-1.7.jar和Tesseract，但是我不知道如何用我的solr核心来配置它们。

浏览 4提问于2017-03-25得票数 2

回答已采纳

1回答

如何忽略tika中的扫描图像

、、

我正在尝试解析tika中的pdf文件。在一些手写扫描的文档中，tika解析文件并返回毫无意义的垃圾文本。我使用的是的python tika包装器。有什么方法可以忽略包含图片的pdf吗？Tesseract OCR分析器已关闭。解析文件后，它不会显示在元数据中。

浏览 4提问于2020-09-09得票数 0

1回答

为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本？

、

我使用TIKA和Tesseract从包含扫描图像的pdf文件中提取OCR文本。我已经设法用ResursiveParserWrapper而不是解析器解析包含图像的pdf文档，它工作得很好，但是客户端希望在其他地方完成与Tesseract OCR相关的所有配置，并使用现有代码从所有支持的格式中提取现有的代码使用简单解析器来提取数据。谁能帮我解释一下，当我们要从包含扫描图像的图像或pdfs中提取数据时，为

浏览 3提问于2018-06-25得票数 0

5回答

如何在Python2.7中使用Tika* package(https://github.com/chrismattmann/tika-python)来解析PDF文件？*

、、、

我正在尝试解析几个包含工程图的PDF文件，以获取这些文件中的文本数据。我尝试将TIKA作为jar与python一起使用，并将其与jnius包一起使用(在这里使用本教程：)，但是代码抛出了一个错误。使用TIKA包，我可以传递文件并解析它们，但Python只能提取元数据，当被要求解析内容时，Python返回输出"none“。它能够完美地解析.txt文件，但无法提取PDF的内容。下面是代码tika.ini

浏览 0提问于2015-10-12得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在OCR PDF上与Tesseract一起使用时，Tika会复制文本

Tika检测到Tesseract，但没有执行任何OCR

图像处理在Apache Tika中是如何工作的

tika语言的变化

如何使用Apache Tika* Server从PDF中提取内联图像并将其保存为文件？*

不安装Tesseract的Apache Tika* OCR*

如何强制tika服务器使用curl排除TesseractOCRParser

通过SOLR对Tesseract的OCR支持

如何更改Tika传递给Tesseract* OCR的语言参数？*

Python返回PDF的“无”内容，但与TIFF的

如何将tesseract-ocr与tika集成？

如何将Tika* python与Tesseract OCR绑定？*

是否有一种方法可以禁用Tika中的OCR模式而不卸载tesseract？

TikaException:关闭临时资源失败-如何修复？

如何使用TesseractOCRParser和Tika命令行实用工具启用TikaConfig？

用solr 6.4.1配置Tesseract

如何忽略tika中的扫描图像

为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本？

如何在Python2.7中使用Tika* package(https://github.com/chrismattmann/tika-python)来解析PDF文件？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐