我试图从docx中提取文本: tika-app做得很好,但是当我尝试在代码中做同样的事情时,结果就什么都不是了,tika解析器说我docx文件的内容类型是"application/zip“。
我该怎么做?我应该使用递归方法(如)还是有其他方法?
UPDATE:如果我将文件名添加到元数据中,现在将正确地检测到文件内容类型:
InputStream is = new FileInputStream(myFile);
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new Body
当我尝试使用org.apache.tika.parser.Parser和DefaultDetector()来检测和解析.doc和.docx文件格式时。但是我从Tika jars中得到了一些错误(也不例外),这对我在这里没有任何有用的堆栈跟踪。我可以确认这种情况只发生在.doc和.docx上。PDF,jpeg,短信很好。有人遇到过.doc和.docx文件格式的问题吗?你有什么解决办法吗?
我的守则如下:
unzippedBytes = loadUnzippedByteCode(attachment.getContents()); /* This is utility method written
我正在尝试检测文件输入流的mime类型。
我的类路径中只有tika core。我使用的是2.0.0版本。
但是,对于docx文件,总是会检测到"application/x-tika-ooxml“。Office文件检测总是导致x-tika-ooxml。
我也尝试在TikaInputStream中包装输入流,但结果相同。
下面是我的代码
public class TikaTester {
public static void main (String a[]) {
try {
使用标准实现,我传递一个文档文件,其中有一个image.png图像和文本。
使用标准实现,我传递一个doc文件,其中有一个image.png映像和文本。
为了获取文件,Tika使用内部ParsingEmbeddedDocumentExtractor类,其中使用了parseEmbedded方法。
首先,我实现了必要的元素并调用解析方法:
//other objects
AutoDetectParser parser = new AutoDetectParser();
ParseContext pc = new ParseContext();
Metadata metadata = new Me
我想使用Tika提取.doc、.ppt等文件格式的文本。
目前我依赖于tika-app-1.2.jar,但我认为依赖这个jar不是个好主意,因为这个jar是可运行的。此外,在解析.ppt文件时,它给出了这个运行时异常:
org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.microsoft.OfficeParser@5de82b72
at org.apache.tika.parser.CompositeParser.parse(Composit
我在我的项目中使用了一个tika解析器。我正在使用这个包中的三个类:
org.apache.tika.Tika;
org.apache.tika.parser.txt.CharsetDetector;
org.apache.tika.parser.txt.CharsetMatch;
上一次我将一个版本从Tika 1.0提升到Tika 1.20。然后,它开始发出警告,比如:
WARN org.apache.tika.parser.SQLite3Parser : org.xerial's sqlite-jdbc is not loaded.
Please provide the jar
我尝试使用help java api Apache POI读取文件.docx。我使用:
public static String view(String nameDoc){
String text = null;
try{
XWPFDocument docx = new XWPFDocument(
new FileInputStream(nameDoc));
XWPFWordExtractor we = new XWPFWordExtractor(docx);
text = we.getText()
我使用Apache从PDF文件中获取内容。当我运行它,我得到以下错误。我在任何地方都没有看到这个错误被记录下来,这只是一个糟糕的惊喜。
org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit.