Apache TIKA - MediaDataBox iso文件_如何使用apache Tika将xml文件转换为HashMap_使用Apache tika获取视频文件contentType，获取“视频/快速时间” - 腾讯云开发者社区

、

看起来Apacke Tika 1.24.1创建了很多/tmp/MediaDataBox ISO文件，我的/tmp分区被填满了。 MediaDataBox ISO文件是做什么用的？我们能不能告诉Tika把它保存在另一个目录中？ Tika在服务器模式下运行如下： java -Xmx3G -jar tika-server.jar -spawnChild --host=hostname.domain.com

浏览 50提问于2020-10-06得票数 0

回答已采纳

2回答

蒂卡拉链炸弹例外

、、、

我们使用Tika1.1从XLSM文件中提取内容。我们有两个服务器实例。在其中一个服务器上，文件内容正在正确提取。但是在另一台服务器上，我得到了相同文件的压缩炸弹异常。我们在这两种情况下都使用相同的tika独立jar。但我无法确定问题的所在。不确定SAX配置是否在运行时造成问题(我对SAX不太熟悉)。如何调试此问题？原因: org.apache.tika.exception.TikaException:检测到拉链炸弹！在org.apache.tika.sax.SecureContentHandler.throwIfCauseOf(SecureContentHandler.java:192)

浏览 3提问于2014-02-19得票数 1

回答已采纳

1回答

如何将Tika集成到我的Lucene项目中？

、、

我想在我的java项目中集成Apache Tika。我需要从不同的文件格式(excel、doc、ppt等)获取文本。经过一些阅读，我明白了构建tika的唯一方法是下载src文件并使用Maven构建它。我在Tika src (apache-tika-0.9-src)的根目录下执行了"mvn install“，但是我得到了这个错误： [INFO] Scanning for projects... Downloading: http://repo1.maven.org/maven2/org/apache/apache/6/apache-6.pom [ERROR] The build coul

浏览 0提问于2011-09-06得票数 1

回答已采纳

1回答

如何将org.apache.tika源代码集成到我的项目中？

、、

我已经下载了Apache Tika源文件夹，并且已经安装了Maven。然后通过命令行(mvn install)我已经安装了Tika： [INFO] Reactor Summary: [INFO] ------------------------------------------------------------------------ [INFO] Apache Tika parent .................................... SUCCESS [4:20.656s] [INFO] Apache Tika core ......................

浏览 1提问于2012-02-06得票数 1

回答已采纳

1回答

我必须依靠哪一罐蒂卡？

、、

我想使用Tika提取.doc、.ppt等文件格式的文本。目前我依赖于tika-app-1.2.jar，但我认为依赖这个jar不是个好主意，因为这个jar是可运行的。此外，在解析.ppt文件时，它给出了这个运行时异常： org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.microsoft.OfficeParser@5de82b72 at org.apache.tika.parser.CompositeParser.parse(Composit

浏览 7提问于2013-04-21得票数 1

回答已采纳

4回答

如何使用Apache 1.5解析大型文本文件？

、、

问题:对于我的测试，我想从一个335 MB的文本文件中提取文本数据，这个文本文件是维基百科使用Apache的“分页器-20140701-060000.txt”。我的解决方案：我尝试使用TikaInputStream，因为它提供了缓冲，然后我尝试使用BufferedInputStream，但这并没有解决我的问题。下面是我的测试课程： import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.

浏览 7提问于2014-07-03得票数 4

回答已采纳

1回答

(如何)我可以使用Apache搜索.DOC、.PDF或.JAVA (等等)为一个短语归档？

、、、、

当我正在搜索的驱动器被索引时，Windows 7搜索很少对我有效。自从我发现Windows 7没有XP“搜索狗”之后，我发现搜索几乎是不可能的，而且几乎是不可靠的(即从2010年起)，所以我用Java编写了自己的搜索程序，名为Searchy。但是，虽然它允许复杂的文件名模式匹配(.DOC*, .PDF, .XL*, .TXT, .XML是合法输入)，但Searchy不能搜索文件的CONTENTS中的单词和短语，比如private protected。我找到了，并下载了一个例程的.jar文件，并将其导入Netbeans 8.0.2，以便下面提供的示例程序tika-example (有点令人

浏览 4提问于2015-08-08得票数 0

回答已采纳

1回答

Apache-tika 1.23无法将.eml文件作为电子邮件的附件抛出NoClassDefFoundError

、、、

java.lang.NoClassDefFoundError: org/apache/james/mime4j/stream/MimeConfig$Builder at org.apache.tika.parser.mail.RFC822Parser.parse(RFC822Parser.java:74) at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280) at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:1

浏览 31提问于2020-07-27得票数 0

1回答

Tika解析给出了达到最大限制的错误。

、

我使用Apache从PDF文件中获取内容。当我运行它，我得到以下错误。我在任何地方都没有看到这个错误被记录下来，这只是一个糟糕的惊喜。 org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit.

浏览 0提问于2017-02-22得票数 0

回答已采纳

1回答

如何更改Tika传递给Tesseract OCR的语言参数？

、

目前，我正在使用tika-app-1.16.jar来OCR我的PDF(与Tesseract相结合)：java -jar tika-app-1.16.jar /tmp/testing/input.pdf 但是，在默认情况下，它只支持英语。我想找到一种方法来传递一种不同的语言。关于文件：当使用OCR解析器时，Tika将使用以下默认设置： Tesseract安装路径= "“ 语言词典=“英语” 页面分割模式= "1“ 最小文件大小=0 最大文件大小= 2147483647 超时= 120 要更改这些设置，可以修改tika-parser/sr

浏览 6提问于2017-11-24得票数 2

1回答

如何在Apache代码中解析以下"NoClassDefFoundError“？

、、

我有一个利用Apache 1.14的简单类，如下所示： import java.io.File; import java.io.IOException; import org.apache.tika.Tika; import org.apache.tika.exception.TikaException; import org.apache.tika.mime.*; import org.xml.sax.SAXException; import org.apache.tika.config.*; public class TikaExtraction { public stati

浏览 8提问于2017-03-31得票数 0

1回答

打开Excel文件时无效的LOC头(错误签名)

、、

我们在使用Apache打开Excel文件时遇到了一个错误。调用new XSSFWorkbook(excelFile)会产生以下结果： org.apache.poi.openxml4j.exceptions.InvalidFormatException: invalid LOC header (bad signature) at org.apache.poi.openxml4j.opc.PackageRelationshipCollection.parseRelationshipsPart(PackageRelationshipCollection.java:369) ~[tika-app-

浏览 9提问于2020-02-14得票数 0

回答已采纳

1回答

SpringBoot中的Tika解析器配置

、、

我在我的项目中使用了一个tika解析器。我正在使用这个包中的三个类： org.apache.tika.Tika; org.apache.tika.parser.txt.CharsetDetector; org.apache.tika.parser.txt.CharsetMatch; 上一次我将一个版本从Tika 1.0提升到Tika 1.20。然后，它开始发出警告，比如： WARN org.apache.tika.parser.SQLite3Parser : org.xerial's sqlite-jdbc is not loaded. Please provide the jar

浏览 2提问于2019-12-30得票数 0

回答已采纳

2回答

是什么导致java.lang.NoClassDefFoundError随机发生？

、、

我们一直在我们的服务器中随机获取NoClassDefFoundError。它偶尔会抛出这个错误，而且大多数情况下它不会抛出任何问题。这种奇怪行为的原因是什么？以下是例外情况。 java.lang.NoClassDefFoundError: Could not initialize class com.github.junrar.Archive at org.apache.tika.parser.pkg.RarParser.parse(RarParser.java:75) at org.apache.tika.parser.CompositeParser.parse(CompositeParse

浏览 4提问于2020-07-22得票数 1

2回答

基于FileName的内容类型检测

、

我正在尝试使用Apache Tika来确定内容类型(即.pdf文件的- application/pdf )。我想使用Apache Tika的org.apache.tika.detect.NameDetector类。我的问题是它的detect方法只接受InputStream。我无权访问文件的InputStream。我只有文件的名称(即- myFile.pdf)。有没有什么好方法可以使用Apache Tika仅根据文件的扩展名/名称来确定内容类型？(注意-我希望避免创建具有所需名称的临时文件，以确定其内容类型。) 谢谢。

浏览 1提问于2014-03-07得票数 2

1回答

使用外部Jar时使用Eclipse Juno EE NoClassDefFoundError

、、、

我通过文件夹、->属性、->构建路径、->库、->添加外部jar，在我的eclipse动态jar项目中添加了外部jar。代码在编译时运行良好。 package servlet; import java.io.IOException; import java.io.PrintWriter; import javax.servlet.ServletException; import javax.servlet.annotation.MultipartConfig; import javax.servlet.annotation.WebServlet; import ja

浏览 1提问于2012-11-04得票数 0

2回答

在Netbeans 8.0.2和Java 8中使用ApacheTika1.9可以产生巨大的可执行文件。怎样做才能缩小尺寸？

、、

我在外部库方面运气不佳，所以我只是在任何使用实用程序的项目中都包含了实用程序的源代码。现在我有了一个需要Apache的项目，所以我必须有一个库设置如下所示：但是要从Netbeans外部运行程序，我显然( dist文件夹中的每个dist)需要压缩.jar和lib文件夹，解压缩压缩文件，提取内容，并从提取到的任何位置运行。但是Tika库是45 is。我只使用tika-app-1.9.jar库文件中的5个对象： import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metada

浏览 3提问于2015-08-10得票数 1

回答已采纳

1回答

从.doc文件中提取文本时出现意外的运行时异常。在MSWord中打开该文件时没有任何错误

、、

我已经使用TikaParser从'.doc‘文件中提取纯文本 public static void main(String[] args) throws Exception { ContentHandler handler = new ToHTMLContentHandler(); AutoDetectParser parser = new AutoDetectParser(); Metadata metadata = new Metadata(); ParseContext context = new ParseContext(); File

浏览 11提问于2017-08-31得票数 0

1回答

在我将PDFBox从1.8更新到2.0.2后，无法索引pdf文件

、、、、

我正在使用PDFBox和tika的内容索引的pdf文件。在PDFFBox 1.8中，每件事情都可以正常工作，但是当PDFBox更新为2.0.2时，它会给我以下错误： (Thread-62 (HornetQ-client-global-threads-2071379348)) Exception while creating solr doucment for content::Failed to close temporary resources: org.apache.tika.exception.TikaException: Failed to close temporary resour

浏览 6提问于2016-09-21得票数 0

回答已采纳

1回答

在Ruby IO.popen中运行外部程序:救援不起作用

、、

我使用从Microsoft文档文件中提取元数据，但在Tika遇到问题时，我的救星不是捕捉错误，而是脚本退出。我在windows 7上使用了MRIRuby1.9.3，我可以修改文档文件，但我希望避免在将来的文件中出现这个问题。如何捕获此错误？ JARPATH = "jar/tika-app-1.6.jar" def metadata return @metadata if defined? @metadata switch = '-m -j' begin command = %Q{java -Djava.awt.headles

浏览 9提问于2015-05-04得票数 0

回答已采纳

1回答

Apache :在tika-server上为opennlp模型设置类路径

我似乎无法为tika-服务器设置类路径，以便正确检测opennlp模型。我按照这里的指示： (用app代替-server，看起来它包含了所需的一切) 我已经创建了以下文件夹结构 tika `-- tika-ner-resources `-- org `-- apache `-- tika `-- parser `-- ner `-- opennlp |-- ner-location.bin

浏览 1提问于2018-08-20得票数 1

回答已采纳

1回答

在使用Maven Tika进行安装时，我会发现与LanguageProfile相关的错误

、

[ERROR] Unable to locate enclosing class org.apache.tika.language.LanguageProfile for nested class org.apache.tika.language.LanguageProfile$1 [ERROR] Unable to locate enclosing class org.apache.tika.language.LanguageProfile for nested class org.apache.tika.language.LanguageProfile$Counter [ERROR] Un

浏览 0提问于2018-03-02得票数 0

3回答

python如何在现有jar文件中使用tika而无需重新下载

、

我正在使用Tika，我意识到每次下载jar文件并将其放入临时文件夹时 Retrieving http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.19/tika-server-1.19.jar to C:\Users\asus\AppData\Local\Temp\tika-server.jar. Retrieving http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.19/tika-ser

浏览 123提问于2019-06-12得票数 13

1回答

使用Apache Tika从DjVu中提取文本

、、

我正在使用Apache Tika来读取OCR文件。用PDF文件可以工作，但用djvu就有问题了。从1.14版本开始，Tika似乎支持Djvu。有什么办法解决这个问题吗？ D:\java -jar tika-app-1.18.jar -eUTF-8 test.djvu 返回 sep 05, 2018 6:38:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem WARNING: J2KImageReader not loaded. JPEG2000 files will not

浏览 7提问于2018-09-06得票数 1

1回答

熟悉java并发现使用依赖项进行编译时遇到困难

、

这是一个全新的问题-所以我很抱歉。我在拓展视野，潜入爪哇。我正在尝试编译一些从Tika依赖项导入的java类。 import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.pdf.PDFParser; import org.apache.tika.sax.BodyContentHandler; import org.xml.s

浏览 2提问于2015-01-16得票数 0

2回答

如何使用apache solr为文本文件建立索引

、、

我想为文本文件建立索引。通过大量搜索，我对Apache tika有了更多的了解。现在，在我研究Apache tika的一些站点上，我了解到Apache tika将文本转换为XML格式，然后将其发送到solr。但在转换时，它只创建一个标记示例......现在，我希望索引的文本文件是一个tomcat本地主机访问文件。这个文件是以GB为单位的。我不能存储它和一个索引。我希望每一行都有line-id .......这样我就可以很容易地检索到匹配的行。这可以在Apache Tika中完成吗？

浏览 3提问于2013-03-19得票数 2

1回答

使用Apache库编译Java程序-依赖关系

、、、

我正在尝试编译一个使用Tika的简单Java程序。我在节目中有以下几点： import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.microsoft.ooxml.

浏览 0提问于2017-09-22得票数 1

1回答

不安装Tesseract的Apache Tika OCR

、、、

我正在使用将PDF文件解析为文本。一些PDF文件可以包含扫描文档。Apache使用Tesseract将文本识别为图像。但是没有带有Tesseract的jar库，用户应该在操作系统中安装Tesseract作为独立的应用程序。如果不安装Tesseract，我如何使用Apache中的Tesseract？我尝试将tesseract文件夹添加到类路径中，并进行如下配置： TesseractOCRConfig config = new TesseractOCRConfig(); config.setTesseractPath("tesseract"); config.setTessdata

浏览 5提问于2017-09-16得票数 6

1回答

Tika LanguageDetection错误为“没有可用的语言检测器”

Tika 2.2.3，简单代码 public static void main(String[] args) throws IOException { LanguageDetector detector =LanguageDetector.getDefaultLanguageDetector(); detector.addText("This is english"); detector.addText("This is english"); detector.addText("This i

浏览 9提问于2022-03-14得票数 1

回答已采纳

1回答

自动排序依赖

、、、

我有一个外部库(比如A.jar)，它有很多我不想要的东西，还有一些我想要的东西。问题是，从我的源文件中(我用这个库编写的，只导入了其中的几个)，但是肯定只包括那些类无法工作(因为我尝试过了)。我不知道(非常大的) A.jar中的类文件的内部依赖性(如果这是什么)。问题--比如说，我用什么工具只将需要的类(以及我不知道的依赖项)导入到另一个文件夹(或另一个Jar文件)。Maven是正确的工具吗?如果是的话，我如何使用它来实现我的目标？图书馆是阿帕奇-蒂卡图书馆。我在代码中导入了以下内容。 import org.apache.tika.exception.TikaException; impo

浏览 0提问于2011-11-03得票数 1

1回答

Apache Tika中的CSV检测器

、、

我正在使用Apache的Java库Tika (tika-core ver )。1.10)。是否存在用于CSV文件的org.apache.tika.detect.Detector？MIME类型应该是text/csv，但我找不到这样的东西。我想使用好的detect方法

浏览 7提问于2015-08-21得票数 3

回答已采纳

1回答

试图覆盖Apache 0.9从PDFBOX 1.4.0到PDFBOX 1.6.0的依赖关系

、、、

<dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-parsers</artifactId> <version>0.9</version> </dependency> I试图将它添加到依赖项下面，而不是在依赖项之上，以覆盖tika到PDFBOX1.6.0的依赖关系，

浏览 2提问于2011-09-21得票数 2

回答已采纳

3回答

在星火上运行Tika的Classpath问题

、、、、

我试着在Tika处理一堆文件。文件的数量为数千个，因此我决定构建一个文件的RDD，并让Spark分配工作负载。不幸的是，我得到了多个NoClassDefFound异常。这是我的sbt文件： name := "TikaFileParser" version := "0.1" scalaVersion := "2.11.7" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.5.1" % "provided"

浏览 4提问于2015-12-15得票数 3

回答已采纳

1回答

Apache tika架构和处理节点

、

我刚刚开始探索Apache Tika。我想检查一下apache tika后台进程是如何工作的。我尝试在独立的机器上执行Tika，但想知道它在Cloudera集群实时环境中是如何工作的。例如:我有一个200页的pdf内容，并使用Tika来提取文本或功能。Tika将使用单个节点执行此过程(即，将一个文件视为一个块)，还是将使用多个节点执行？我只是将Tika进程与Mapreduce进行比较，了解Tika是否也在逐块处理文件。请帮我理解一下这个后台流程。我现在没带代码。请帮助我理解这个后台进程在节点方面的工作方式。

浏览 3提问于2019-06-26得票数 0

1回答

Spark - Scala:解析和提取同时包含文本和图像的文档- .doc、.docx文件

、

我有几个文件(doc，docx文件)，其中包含图像和文本。我想解析这些文件并提取内容，有或没有图像细节。目前我使用的是Apache Tika，它拒绝解析这样的文件。它完美地工作于PDF，和纯文本.doc，.docx文件。但是包含图像的文件抛出错误： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.commons.compress.utils.IOUtils.readFully(Ljava/io/InputStream;[B)I at org.apache.tika.parser.pk

浏览 9提问于2017-07-08得票数 0

回答已采纳

1回答

如何将pdf文件转换为apache tika中的文本

、、

我正在尝试使用apache将pdf文件转换为文本文件。我正在使用下面的代码 curl file:////home/C:\Apache\list costs closed.pdf | java -jar tika-app-1.6.jar --text --encoding=US-ASCII | xargs -0 > list costs closedText 但是当我在命令程序中运行这段代码时，我得到了这个错误。 “‘curl”不被识别为内部或外部命令、可操作的程序或批处理文件。我已经设置了java环境变量。这听起来可能是重复的问题，但我尝试谷歌通过其他链接，我无法解决它

浏览 1提问于2018-01-16得票数 0

1回答

tika默认检测器对于不同应用程序中的相同代码是不同的

、

我正在进行的项目有一个使用Tika的WebUI (WAR)和另一个也使用Tika的应用程序(JAR)。两者具有相同的代码： Tika t = new Tika(); String detectedType = t.detect(fileName); 然而，每一个都会返回不同的结果。我使用了上的Tika故障排除提示在WebUI中我看到 Tika version: Apache Tika 1.22 Tika detector type org.apache.tika.detect.OverrideDetector Tika detector type org.apache.tika.parse

浏览 1提问于2019-11-15得票数 1

1回答

使用Tika从.tex文件中提取文本

、、

如何使用Apache Tika从.tex文件中提取文本？上有一个示例文件 Tika能够正确地检测到内容类型为application/x-tex，但不会从中提取任何内容。我试过这个命令 java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex 还有下面的代码片段： File file = new File(fileName); Tika tika = new Tika(); String mimeType = tika.detect(file); pageContent = tika.parseToString(file);

浏览 2提问于2011-03-15得票数 1

回答已采纳

1回答

TikaException:解析PDF时无法关闭临时资源

、

我在Windows10，jre 1.8.0_241上使用Apache Tika，并且我已经使用ant导入了Tika 1.24.1。我有下面的代码来从PDF中提取内容： public class TikaExtraction { public static void main(final String[] args) throws IOException, TikaException { //Assume sample.txt is in your current directory File file = new File

浏览 48提问于2020-08-24得票数 0

1回答

分析pdf文档时出现Grobid抛出错误的Tika

、

我正在尝试从pdf文档中提取文档元数据和日志标题元数据。我验证了Tika Server (v1.21 / v1.24)和Grobid (v0.6.0)能够独立地从pdf文档中提取元数据。然而，当我在Tika Server中运行Grobid (遵循https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的指令)时，我得到相同pdf文档的以下错误(代码片段)： org.xml.sax.SAXParseException; Premature end of file. at org.apache.

浏览 59提问于2020-07-16得票数 1

1回答

Apache Tika应用程序配置文件

、

我在我的Ubuntu 16.04服务器上使用Apache Tika App作为一个命令行工具来提取文档内容。 Apache Tika网站提供了以下内容：生成工件 Tika构建由许多组件组成，并生成以下主要二进制文件： tika-core/target/tika-core-*.jar Tika核心库。包含Tika的核心接口和类，但不包含任何解析器实现。仅依赖于Java 6。 tika-parsers/target/tika-parsers-*.jar Tika解析器。基于各种外部解析器库实现Tika解析器接口的类的集合。 tika-app/target/tika-app-*.jar Tika

浏览 144提问于2018-07-28得票数 4

1回答

Apache如何提取带有out页眉和页脚内容的html正文

、、、

除了页眉和页脚之外，我希望提取html的整个正文内容，但是我得到了异常。 org.xml.sax.SAXException:未声明命名空间下面是我所创建的代码，正如我提到的 import org.apache.tika.exception.TikaException; import org.apache.tika.io.TikaInputStream; import org.apache.tika.parser.AutoDetectParser; import org.apache.tika.sax.BodyContentHandler; import org.apache.tika

浏览 3提问于2017-03-03得票数 4

2回答

当从tika-app调用ctakes解析器时，异常

、、、、

当从tika-app调用cTAKES解析器时，如下所示： java -classpath $HOME/src/ctakes-config:${TIKA_HOME}/tika-app/target/tika-app-X.Y-SNAPSHOT.jar:${CTAKES_HOME}/desc:${CTAKES_HOME}/resources:${CTAKES_HOME}/lib/* org.apache.tika.cli.TikaCLI --config=$HOME/src/ctakes-config/tika-config.xml -m Vose-2013-American_Journal_of_

浏览 6提问于2020-02-16得票数 0

3回答

如何修改类文件？

我当时正在处理eclipse中的项目，在这个项目中我为PDFBOX添加了这个maven依赖项。 Maven dependency <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>1.6.0</version> </dependency> 我在一些pdf文件上得到了如下错误： Parsing Error, Skipp

浏览 0提问于2011-09-21得票数 0

回答已采纳

3回答

使用Apache Commons守护程序配置Tika Windows服务

、、

我正在尝试使用Apache Commons Daemon将Tika JAXRS作为Windows服务运行。我已经从获得了tika-server-1.7.jar 我已经从下载了用于Apache Commons守护进程的Windows二进制文件v1.0.15 我可以让Tika作为服务启动，但我不能确定使用什么作为stop方法。 prunsrv.exe //IS//tika-daemon --DisplayName "Tika Daemon" --Classpath "C:\Tika Service\tika-server-1.7.jar" --StartC

浏览 4提问于2015-03-04得票数 1

1回答

eclipse无法导入apache tika src

、、、、

尝试最小化/剥离apache tika的源代码，以便能够在android中编译，因为有些类我不需要，并且在android中不可用。问题是eclipse无法将apache tika src识别为项目，因此无法导入。尝试使用文件系统作为导入，但它需要根文件夹，所以不能这样做。我确实知道它需要.project和.classpath，但是我是否应该将这两个文件添加到每个apache tika src文件夹中，或者是否有更好的方法？

浏览 12提问于2016-08-26得票数 0

回答已采纳

1回答

在Apache Tika中缺少许多元数据键值对。

、、、

我试图使用Apache Tika.The代码获取一个文件的元数据，如下所示， import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.util.Arrays; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.AutoD

浏览 22提问于2022-03-22得票数 2

回答已采纳

1回答

不通过工件解析Tika传递依赖的等级

、、

我正致力于发布第一个真正有用的版本，并且在解决依赖关系方面遇到了一个很大的障碍。Jfrog的好心人已经很好地认可了我的开源工作，可以免费访问Artifactory Pro，所以我使用它来检查和验证我的传递依赖项的许可证。我使用Apache2.0许可证，所以我尝试使用来遵守它的2.0许可证。但是，其中一个依赖项Apache 1.12有一些“X”依赖项，它是在对该策略进行一些更改时发布的，我认为较新版本的Tika已经纠正了这些依赖问题。合理的解决方案是升级我的Tika依赖项。不幸的是，这种情况并不顺利。当我将Tika升级到1.15 (或者现在是1.16 )时，我发现我不再从tika解析器获得传递

浏览 8提问于2017-07-26得票数 1

回答已采纳

1回答

裸骨Tika型探测器与Apache POI

、、、

我正在使用Apache ( 1.7岁)和Apache在Maven构建的项目中从.doc和docx文档中提取文本。因为某种原因，我得到了 java.lang.NoSuchMethodError: org.apache.poi.util.IOUtils.calculateChecksum 错误。正如在中所说的，这是由版本问题引起的。因此，显而易见的解决方案是升级POI或什么的。这方面的问题是，我正在使用POI的版本，它与tika捆绑在tika解析器包中。这是因为我使用的是Tika型检测器，这是我使用的Tika的唯一部分(POI除外)。问题是，如果我只使用Tika核心包并在maven pom.xml

浏览 3提问于2015-04-19得票数 1

回答已采纳

1回答

Apache TikaParser抛出无法捕获的异常

、、

我目前正在尝试开发一个使用Apache TikaParser从不同文件中提取内容的工具。在大多数情况下，一切正常，但有一些文件，Tika抛出了以下异常： Mar 09, 2020 11:21:58 AM org.apache.poi.ss.format.CellFormat <init> WARNING: Invalid format: "_([$€-2]\ * "-"_);" java.lang.IllegalArgumentException: Unsupported [] format block '[' in '_([

浏览 1提问于2020-03-09得票数 0