我想使用Tika提取.doc、.ppt等文件格式的文本。
目前我依赖于tika-app-1.2.jar,但我认为依赖这个jar不是个好主意,因为这个jar是可运行的。此外,在解析.ppt文件时,它给出了这个运行时异常:
org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.microsoft.OfficeParser@5de82b72
at org.apache.tika.parser.CompositeParser.parse(Composit
java.lang.NoClassDefFoundError: org/apache/james/mime4j/stream/MimeConfig$Builder
at org.apache.tika.parser.mail.RFC822Parser.parse(RFC822Parser.java:74)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:1
我使用Apache从PDF文件中获取内容。当我运行它,我得到以下错误。我在任何地方都没有看到这个错误被记录下来,这只是一个糟糕的惊喜。
org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit.
我们一直在我们的服务器中随机获取NoClassDefFoundError。它偶尔会抛出这个错误,而且大多数情况下它不会抛出任何问题。这种奇怪行为的原因是什么?以下是例外情况。
java.lang.NoClassDefFoundError: Could not initialize class com.github.junrar.Archive
at org.apache.tika.parser.pkg.RarParser.parse(RarParser.java:75)
at org.apache.tika.parser.CompositeParser.parse(CompositeParse
我在我的项目中使用了一个tika解析器。我正在使用这个包中的三个类:
org.apache.tika.Tika;
org.apache.tika.parser.txt.CharsetDetector;
org.apache.tika.parser.txt.CharsetMatch;
上一次我将一个版本从Tika 1.0提升到Tika 1.20。然后,它开始发出警告,比如:
WARN org.apache.tika.parser.SQLite3Parser : org.xerial's sqlite-jdbc is not loaded.
Please provide the jar
我正在使用PDFBox和tika的内容索引的pdf文件。在PDFFBox 1.8中,每件事情都可以正常工作,但是当PDFBox更新为2.0.2时,它会给我以下错误:
(Thread-62 (HornetQ-client-global-threads-2071379348)) Exception while creating solr doucment for content::Failed to close temporary resources: org.apache.tika.exception.TikaException: Failed to close temporary resour
[ERROR] Unable to locate enclosing class org.apache.tika.language.LanguageProfile for nested class org.apache.tika.language.LanguageProfile$1
[ERROR] Unable to locate enclosing class org.apache.tika.language.LanguageProfile for nested class org.apache.tika.language.LanguageProfile$Counter
[ERROR] Un
Tika 2.2.3,简单代码
public static void main(String[] args) throws IOException {
LanguageDetector detector =LanguageDetector.getDefaultLanguageDetector();
detector.addText("This is english");
detector.addText("This is english");
detector.addText("This i
我正在进行的项目有一个使用Tika的WebUI (WAR)和另一个也使用Tika的应用程序(JAR)。两者具有相同的代码:
Tika t = new Tika();
String detectedType = t.detect(fileName);
然而,每一个都会返回不同的结果。
我使用了上的Tika故障排除提示
在WebUI中我看到
Tika version: Apache Tika 1.22
Tika detector type org.apache.tika.detect.OverrideDetector
Tika detector type org.apache.tika.parse
我在Windows10,jre 1.8.0_241上使用Apache Tika,并且我已经使用ant导入了Tika 1.24.1。我有下面的代码来从PDF中提取内容: public class TikaExtraction {
public static void main(final String[] args) throws IOException, TikaException {
//Assume sample.txt is in your current directory
File file = new File
我正在尝试从pdf文档中提取文档元数据和日志标题元数据。我验证了Tika Server (v1.21 / v1.24)和Grobid (v0.6.0)能够独立地从pdf文档中提取元数据。然而,当我在Tika Server中运行Grobid (遵循https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的指令)时,我得到相同pdf文档的以下错误(代码片段): org.xml.sax.SAXParseException; Premature end of file.
at org.apache.
尝试最小化/剥离apache tika的源代码,以便能够在android中编译,因为有些类我不需要,并且在android中不可用。
问题是eclipse无法将apache tika src识别为项目,因此无法导入。
尝试使用文件系统作为导入,但它需要根文件夹,所以不能这样做。
我确实知道它需要.project和.classpath,但是我是否应该将这两个文件添加到每个apache tika src文件夹中,或者是否有更好的方法?