图像处理在Apache Tika中是如何工作的

、、、

但在某些情况下，pdf文件是硬文档的扫描副本。有没有办法可以找出给定的pdf文件是扫描过的文件还是普通的pdf文件？

浏览 1提问于2017-02-11得票数 0

1回答

、、

我正在使用Apache Tika从图像中提取文本。Tika反过来使用tesseract来识别文本。但是比较Tika和Tessaract (我也安装了一个独立的命令行工具)的输出，我注意到前者比单独使用Tesseract提供了更好的结果。那么在调用捆绑的Tesseract实例之前，Tika是否使用了捆绑的图像预处理器来提高图像质量

浏览 14提问于2019-09-06得票数 0

1回答

Apache tika架构和处理节点

、

我刚刚开始探索Apache Tika。我想检查一下apache tika后台进程是如何工作的。我尝试在独立的机器上执行Tika，但想知道它在Cloudera集群实时环境中是如何工作的。例如:我有一个200页的pdf内容，并使用Tika来提取文本或功能。Tika</e

浏览 3提问于2019-06-26得票数 0

3回答

如何使用TesseractOCRParser和Tika命令行实用工具启用TikaConfig？

、、、、

我已经安装了apache 1.8，它运行得非常完美，除非OCR部件不能工作。我安装了Tesseract，它也在正常工作。当我试图发送一个有图像的pdf时，我得到以下信息。警告:除非您将TesseractOCRParser从默认解析器中排除在外，否则将安装Tesseract OCR并将其自动应用于图像f iles。Tesseract可能会大大减慢内容提取的速度(TIKA-2359)。从Tika 1.15 (和以前<em

浏览 1提问于2018-08-02得票数 3

回答已采纳

1回答

在尝试解析具有文本包含图像的pdf时使用Apache* tika解析器的问题*

、、、、

我使用这两个依赖项：- tika核心2.6.0tika解析器标准包2.6.0 .Parsing在这些情况下很好地工作：- pdf文件和文本。pdf文件与图像。文本文件和其他扩展名。对于下面的用例- pdf文件和图像中的文本，pdf分析器运行时异常的解析失败。全错误堆栈跟踪：- org.apache.tika.parser.Composi

浏览 19提问于2022-11-11得票数 0

3回答

在Java/Groovy中验证文件/获取真实的文件类型？

、、、

我需要确定一个文件是否属于一组给定的真类型，我想知道做这件事的最好方法是什么。有什么想法吗？

浏览 1提问于2011-03-09得票数 3

回答已采纳

1回答

使用unpack方法从tika* python模块发出警告消息*

、、、

我目前正在使用tika从pdf文件中提取文本。我在tika模块中找到了一个非常快速的方法。这种方法称为unpack。这是我的密码：然而，偶尔(并不总是如此！)重新尝试之后，代码就开始工作了。然而，我不明白警告，也需要时间来重试。有人知道我为什么会收到这个警告吗？这是github页

浏览 0提问于2018-11-02得票数 6

回答已采纳

1回答

无法使用Lucee通过Apache* Tika提取文本*

、、

我想从pdf，docx等通过Lucee 5+ (5.2.9)提取文本，但不幸的是，我得到了空的结果集。我使用了几个 (Java1.8.0的可运行jar )，它们可能适合我的特定Lucee和Java需求，但结果集始终是空的。return {}; var parser = CreateObject( "java", "org.apache.tika.pa

浏览 6提问于2022-05-19得票数 0

回答已采纳

2回答

使用Apache* Tika从PDF中提取图像*

、、

Apache Tika 1.6能够从PDF文档中提取内联图像。然而，我一直在努力让它工作。我已经能够通过使用自定义解析器(构建在AutoParser上)从其他文档类型中提取图像，将文档转换为超文本标记语言，然后将图像单独保存出来。然而，当我尝试使用PDF时，

浏览 12提问于2014-09-11得票数 4

1回答

(如何)我可以使用Apache搜索.DOC、.PDF或.JAVA (等等)为一个短语归档？

、、、、

但是，虽然它允许复杂的文件名模式匹配(.DOC*, .PDF, .XL*, .TXT, .XML是合法输入)，但Searchy不能搜索文件的CONTENTS中的单词和短语，比如private protected这个链接的简介让我认为Apache Tika是我应该在Searchy中使用的。我不知道如何明智地使用它，但是如果我能够弄清楚如何处理一个文件以查看它是否包含

浏览 4提问于2015-08-08得票数 0

回答已采纳

1回答

使用nutch爬行图像及其元数据并将其编入solr

、、、、

我想建立一个迷你图像为基础的搜索引擎，我可以提供图像文件，它将搜索类似的图像在solr。我使用nutch作为爬行部分，并将数据索引到solr中。我已经修改了nutch conf文件，比如- <field name=&

浏览 1提问于2019-04-09得票数 0

回答已采纳

1回答

Spark - Scala:解析和提取同时包含文本和图像的文档- .doc、.docx文件

、

我有几个文件(doc，docx文件)，其中包含图像和文本。我想解析这些文件并提取内容，有或没有图像细节。Exception in thread "main" java.lang.NoSuchMethodError: org.apache</em

浏览 9提问于2017-07-08得票数 0

回答已采纳

1回答

如何在Apache* Tika中启用日志或确定正在调用哪些解析器*

我想知道电话里发生了什么我尝试使用所有可能的图像和自动解析器，但它与从该命令接收的输出不匹配。

浏览 2提问于2014-04-29得票数 0

回答已采纳

1回答

使用Apache时的NoSuchMethodError

使用Apache提取JPEG图像的元数据时遇到以下错误at org.apache.tika.parser.jpeg.JpegParser.parse(JpegParser.java:56)at org.apache.tika.parser.Compo

浏览 5提问于2013-09-19得票数 3

回答已采纳

5回答

在windows XP上运行的开源OCR库

我在找在windows XP上运行的开放源码的OCR库。我需要这为图像和PDF的工作。大多数情况下，我想从java接口这个库。你知道有没有可用的东西？致以问候。

浏览 13提问于2013-04-24得票数 0

3回答

如何配置Tika的pom.xml以停止获取所有许可证依赖警告？

、、、

当我尝试使用这些警告的时候，我会收到来自Tika的所有警告： 2018年2月24日9: 24 :35 org.apache.tika.config.InitializableProblemHandlertiff文件将不会被处理，请参见中的可选依赖项。J2KImageReader未加载。将不处理JPEG2000文件。有关可选依赖项，请参见。有关正确的版本，请参见tika-解析器/头. th

浏览 1提问于2018-02-25得票数 8

1回答

Tika调用的问题

、

(excel工作表中的第5列包含存在于我的文件系统中的文件名)我循环遍历表格的各行(使用POI提取单元格的内容)，并为每一行创建Tika的实例，然后使用Tika "parseToString( file)“解析在第5列命名的文件，当文件是Office文档( excel、ppt、word)时，我收到以下错误： Exception in t

浏览 0提问于2011-09-07得票数 1

回答已采纳

1回答

用Tika编译应用程序的Java 13问题加载模块

、、、

我正在尝试将使用Tika的Java应用程序从OracleJDK 1.8迁移到OPenJDK 13。我的IDE是Eclipse。为了能够使用Tika类，如AbstractParser、Detector等，我在module-info.java中添加了requires org.apache.tika.core;。我的代码还使用类org.apache.tika.parser.pdf.PD

浏览 4提问于2020-06-05得票数 0

1回答

如何使用Apache* Tika Server从PDF中提取内联图像并将其保存为文件？*

、

我在对http://localhost:9998/tika的PUT请求中使用了以下标头"X-Tika-OCRLanguage", "eng""X-Tika-PDFOcrStrategy&q

浏览 48提问于2021-06-02得票数 0

1回答

从阿帕奇·蒂卡开始吗？

、、、

我想编写一个使用Apache Tika下载网页文本内容的Java web爬虫，但我是使用Apache项目的新手，而且我还没有找到明确的源代码来明确如何将Tika集成到程序中。根据我从互联网上收集到的信息，我已经在命令行中使用Maven构建了Tika，但是我不知道从哪里开始使用Tika类(？)比如我的Java程序中的</e

浏览 3提问于2013-07-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用Tika解析器/ Java检测pdf是否为扫描文档