如何使用像tika这样的java开源api从docx文件中获取嵌入的图片？ - 腾讯云开发者社区

java、maven、apache-poi、apache-tika

我正在使用Apache ( 1.7岁)和Apache在Maven构建的项目中从.doc和docx文档中提取文本。因为某种原因，我得到了 java.lang.NoSuchMethodError: org.apache.poi.util.IOUtils.calculateChecksum 错误。正如在中所说的，这是由版本问题引起的。因此，显而易见的解决方案是升级POI或什么的。这方面的问题是，我正在使用POI的版本，它与tika捆绑在tika解析器包中。这是因为我使用的是Tika型检测器，这是我使用的Tika的唯一部分(POI除外)。问题是，如果我只使用Tika核心包并在maven pom.xml

浏览 3提问于2015-04-19得票数 1

回答已采纳

1回答

通过Apache POI从表格的单元格读取图像数据

apache、apache-poi

我被困在一个地方，我需要立即帮助，下面是我的问题。实际上我正在使用Apache POI (XWPF)来读取word (.docx)文档，我能够成功地读取表格数据，除了图像也在表格的单元格内。因为我是这个Api的新手，但根据我的理解，我认为我们也可以从cell中读取图像字节数据。 POIXMLDocumentPart pictureData=(POIXMLDocumentPart)imageCell.getPart(); PackageRelationship packageRelationship=pictureData.getPackageRelationship(); System.

浏览 1提问于2012-04-12得票数 0

回答已采纳

4回答

使用Apache获取MimeType子类型

java、mime-types、detection、apache-tika

对于odt、ppt、pptx、xlsx等文档，我需要获取应用程序MediaType，而不是应用程序/zip或应用程序/x-tika-msoffice。如果您查看mimetypes.xml，就会发现mimeType元素由iana.org mime类型和"sub-class- of“组成 <mime-type type="application/msword"> <alias type="application/vnd.ms-word"/> ............................ &l

浏览 0提问于2011-08-21得票数 14

回答已采纳

1回答

如何用Tika从docx中提取文本

java、parsing、docx、apache-tika

我试图从docx中提取文本: tika-app做得很好，但是当我尝试在代码中做同样的事情时，结果就什么都不是了，tika解析器说我docx文件的内容类型是"application/zip“。我该怎么做？我应该使用递归方法(如)还是有其他方法？ UPDATE:如果我将文件名添加到元数据中，现在将正确地检测到文件内容类型： InputStream is = new FileInputStream(myFile); AutoDetectParser parser = new AutoDetectParser(); BodyContentHandler handler = new Body

浏览 3提问于2015-07-16得票数 0

2回答

Tika检测docx文件为Zip

java、apache-tika

我有以下测试代码来检测docx内容类型： @Test public void testContentTypeOfaWordDOCXFileIsReturnedCorrectlyByTheServer() throws IOException, TikaException { File docxFile = new File(FILE_COMPLETE_PATH); InputStream inputStream = new FileInputStream(docxFile); MediaType mediaType=spyServlet.

浏览 8提问于2016-08-23得票数 4

2回答

Elasticsearch附件插件与自己的tika实现

elasticsearch、apache-tika

我想使用Tika工具包来索引文档文件的内容(pdf，docx...)和图片(通过tesseract插件)。我试过弹性摄取附件插件()，它工作得很好，但没有内置OCR。我必须发送我的文件的数据，所以高内存使用率+弹性索引的“base64”(base64)字段是无用的。我正在考虑直接使用Tika工具包，然后在ElasticSearch中索引内容。所以我想知道这是不是更好的方法？

浏览 3提问于2016-11-07得票数 3

1回答

Spark - Scala:解析和提取同时包含文本和图像的文档- .doc、.docx文件

scala、apache-spark-2.0

我有几个文件(doc，docx文件)，其中包含图像和文本。我想解析这些文件并提取内容，有或没有图像细节。目前我使用的是Apache Tika，它拒绝解析这样的文件。它完美地工作于PDF，和纯文本.doc，.docx文件。但是包含图像的文件抛出错误： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.commons.compress.utils.IOUtils.readFully(Ljava/io/InputStream;[B)I at org.apache.tika.parser.pk

浏览 9提问于2017-07-08得票数 0

回答已采纳

1回答

如何将.doc或.docx文件转换为.pdf文件？

java、apache、apache-tika

如何使用java中的apache将.doc或.docx文件转换为.pdf文件？

浏览 0提问于2016-12-30得票数 3

1回答

Apache tika的替代方案

android

我需要从chm、rtf、doc/docx、odf、djvu和mobi中提取元数据。我试着使用Apache Tika，花了3天多的时间在Android上工作，但都无济于事。有没有什么库可以用来从上面提到的文件中提取元数据。

浏览 30提问于2017-02-22得票数 0

回答已采纳

1回答

检测文件是否受到密码保护而不将其加载到内存中？

java、apache-tika

有一些现有的帖子谈论“如何检测文档是否受到密码保护”。这可能是most的最全面的链接： (代码是用C#编写的)。我在Java应用程序中，我希望能够检测PDF、XLS、XLSX、DOC、DOCX或ZIP文件是否受到密码保护。所以我立刻联系到了。我似乎找不到一种方法来检测一个文档是否受到密码保护，同时保证它不会解析整个文档，也不会在任何时候将整个文档加载到内存中。我想的是我设置了一个内容处理程序(这里有一个例子：)，在这里，我在64K之后停止解析，或者类似的东西。有更简单的方法吗？

浏览 8提问于2019-09-18得票数 6

回答已采纳

2回答

Apache Tika:在java中通过Rest解析docx文件

java、rest、apache-tika、tika-server

我在服务器模式下使用Appache Tika。我需要开发解析文件的java rest客户端。对于pdf文件上传，我使用代码： fileBody = new FileBody(file, "application/pdf"); multiPartEntity.addPart("uploaded_file", fileBody); pdfPutRequest.setEntity(multiPartEntity); response = client.execute(pdfPutRequest); 使用apache.http库。现在我尝试开发docx部分，但我不知道我

浏览 6提问于2017-02-28得票数 0

1回答

使用对象解析.doc和.docx文件格式的问题

java、parsing、apache-tika、file-type、.doc

当我尝试使用org.apache.tika.parser.Parser和DefaultDetector()来检测和解析.doc和.docx文件格式时。但是我从Tika jars中得到了一些错误(也不例外)，这对我在这里没有任何有用的堆栈跟踪。我可以确认这种情况只发生在.doc和.docx上。PDF，jpeg，短信很好。有人遇到过.doc和.docx文件格式的问题吗？你有什么解决办法吗？我的守则如下： unzippedBytes = loadUnzippedByteCode(attachment.getContents()); /* This is utility method written

浏览 19提问于2016-01-14得票数 1

回答已采纳

1回答

使用Apache Tika提取大文件

go、apache-tika

我使用Apache Tika和Go从任何类型的文件(.txt，.docx，.pdf等)中提取内容，代码如下。 file, err := os.Open("foo.docx") if err != nil { fmt.Println(err) } client := tika.NewClient(nil, "http://localhost:9998/") body, err := client.Parse(context.Background(), file) 它可以很好地提取内容，但问题是，如果文件大小更大，时间误差可能会生成V

浏览 14提问于2021-01-07得票数 0

1回答

tika PackageParser不适用于目录。

apache-tika

我正在编写一个类来递归地从zip文件中提取文件，并将它们生成到Kafka队列中以供进一步处理。我的意图是能够从多个级别的zip中提取文件。下面的代码是我的tika ContainerExtractor的实现。 import java.io.File; import java.io.IOException; import java.io.InputStream; import java.util.ArrayList; import java.util.Collections; import java.util.HashSet; import java.util.List; import java

浏览 1提问于2015-02-02得票数 0

回答已采纳

1回答

如何利用以下ECM技术-比较

java、content-management-system、solr、jackrabbit、apache-tika

我有一个理论问题。我有吨的各种格式的文件(ODS，MS office，pdf，html)，我想实现ECM系统，这不是一个文件管理系统，而是一个系统，持久的元数据和数据的文件(各种语言)在一个统一的方式(xhtml)到文件系统和数据库(只有元数据)，并做数据处理(索引，搜索)。您将使用哪些技术，您将如何继续？以下是我的选项：只使用Apache Tika -解析这些文档并将元数据和数据提取为xhtml格式，然后使用Lucene或Solr进行索引和全文(最大的缺点是数据库持久性-元数据变化很大) 只使用带有Tika 的Apache Solr -我没有使用它的经验。它是否支持像Apache Nut

浏览 1提问于2011-02-28得票数 2

1回答

Tika服务器-没有书签和图像标签的分析

apache-tika、tika-server

我正在用tika server v1.20提取文本。 Tika在文本中添加书签: xx和image: xx。我不想要他们。样本输出：天才大脑如何学习大卫A.苏萨形象:天才大脑如何学习欢迎来到我们第三次家庭之门研究。复制：运行服务器- java -jar tika-server-1.20.jar -p 5000 放置http://localhost:5000/tika 将文件附加为二进制文件和content-type：application/vnd.openxmlformats-officedocument.wordprocessingml.document 输入文件：使用regex

浏览 3提问于2019-10-03得票数 1

回答已采纳

3回答

码头巨蟒

python、docker、apache-tika

我喜欢创建一个Dockerfile，它安装在Docker容器中运行python所需的所有组件。到目前为止，这是我的Dockerfile： ###Get python FROM python:3 RUN pip3 install --upgrade pip requests RUN pip3 install python-docx tika numpy pandas RUN mkdir scripts ADD runner.py /scripts/ CMD [ "python", "./scripts/runner.py" ] 我构建它并运行Docker

浏览 0提问于2020-05-08得票数 3

回答已采纳

1回答

对Office文件的Mime类型检测导致应用程序/x-tika-ooxml

apache-tika

我正在尝试检测文件输入流的mime类型。我的类路径中只有tika core。我使用的是2.0.0版本。但是，对于docx文件，总是会检测到"application/x-tika-ooxml“。Office文件检测总是导致x-tika-ooxml。我也尝试在TikaInputStream中包装输入流，但结果相同。下面是我的代码 public class TikaTester { public static void main (String a[]) { try {

浏览 20提问于2021-07-21得票数 1

3回答

在C# .NET中查看docx文件

c#、.net、blob、docx、mhtml

我需要创建C# .NET解决方案，以便直接从数据库查看.docx文件，而无需在硬盘上写入。最可行的方法是什么？一种选择是将docx文件转换为.mht格式，并作为blob类型保存在数据库中。但我找不到直接从数据库中查看它的方法。另一种方法是利用.NET中的picturebox控件将docx文件转换为.jpg文件，该文件可以直接从数据库中查看。方法是先将docx文件转换为.mdi格式，然后再转换为.tiff格式(使用Microsoft Image Writer)，最后转换为jpeg格式。但这涉及多个IO操作，从而降低了解决方案的效率和可靠性。如果有人知道如何改进上述选项或任何新想法，将不胜感

浏览 0提问于2010-09-30得票数 5

2回答

使用TIKA从嵌入到.docx文件中的图像中获取文本

nlp、apache-poi、apache-tika、text-extraction

我一直致力于文本提取器的工作，在.docx文件使用提卡。它是基本文本和表格和文本框中的文本的工作文件，但它不适用于图像。如何从图像中获取文本，tesseract和tika可以单独用于从图像中获取文本，但为此，我需要从文档中提取图像。我该怎么做呢？如果有人做过这样的事情，请多多帮助。这段代码适用于文本、文本框和表格，但不适用于图像： public class BasicDocumentExtractor { public static void main(final String[] args) throws IOException,SAXException, TikaException

浏览 4提问于2015-07-23得票数 0

1回答

不能用Tika得到正确的键值对

java、apache、metadata、key-value、apache-tika

我试图从Office文档中获取元数据值，它显示的所有键值对都是这样的：内容-类型: application/zip 我就是说不出这个问题。为什么它只显示内容类型？我感兴趣的是像标题这样的钥匙。 import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

Java Tika无法从rar文件中获取嵌入式文件

java、apache-tika

使用标准实现，我传递一个文档文件，其中有一个image.png图像和文本。使用标准实现，我传递一个doc文件，其中有一个image.png映像和文本。为了获取文件，Tika使用内部ParsingEmbeddedDocumentExtractor类，其中使用了parseEmbedded方法。首先，我实现了必要的元素并调用解析方法： //other objects AutoDetectParser parser = new AutoDetectParser(); ParseContext pc = new ParseContext(); Metadata metadata = new Me

浏览 8提问于2022-08-31得票数 0

2回答

urllib3 -使用tika服务器从docx获取文本

python、python-3.x、urllib、apache-tika、urllib3

我使用python3、urllib3和tika-server-1.13从不同类型的文件中获取文本。这是我的python代码： def get_text(self, input_file_path, text_output_path, content_type): global config headers = util.make_headers() mime_type = ContentType.get_mime_type(content_type) if mime_type != '': headers['Conten

浏览 0提问于2016-08-01得票数 0

回答已采纳

1回答

上传Word文件通过TIKA REST提取文本

delphi、lazarus、apache-tika、indy10

我试图通过他们的REST调用Apache。我已经成功地上传了PDF文档并通过CURL返回了文档的文本 curl -X PUT --data-binary @<filename>.pdf http://localhost:9998/tika --header "Content-type: application/pdf" 翻译成印地： function GetPDFText(const FileName: String): String; var IdHTTP: TIdHTTP; Params: TIdMultiPartFormDataStream; beg

浏览 5提问于2020-02-19得票数 1

回答已采纳

1回答

什么是解析文件中文本内容以使其可供搜索的最佳开源工具？

open-source、java、text-processing、text-search

我想解析任何类型的文件的文本内容，以使它可供搜索。例如，该文件可以是.txt、.docx文档类型文件，也可以是图像、音频或视频文件。我能找到Apache Tika在做这个。有没有其他可用的工具？其中哪一个最适合做文本解析器？有人能对此有所了解吗。

浏览 0提问于2017-11-02得票数 2

1回答

Tika检测到Tesseract，但没有执行任何OCR

tesseract、apache-tika

我刚刚安装了Tika从Github的存储库，并试图OCR，一个PDF，其中包含扫描的文档页。 java -cp tika-app/target/tika-app-1.17-SNAPSHOT.jar org.apache.tika.cli.TikaCLI /tmp/testing/sample_scanned.pdf 但是，只提取元数据(尽管我事先得到了安装和使用Tesseract的确认：警告:除非您将TesseractOCRParser排除在默认解析器之外，否则将安装Tesseract OCR并将其自动应用于图像文件。Tesseract可能会大大减慢内容提取的速度(TIKA-2359)。从

浏览 10提问于2017-12-01得票数 0

1回答

为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本？

tesseract、apache-tika

我使用TIKA和Tesseract从包含扫描图像的pdf文件中提取OCR文本。我已经设法用ResursiveParserWrapper而不是解析器解析包含图像的pdf文档，它工作得很好，但是客户端希望在其他地方完成与Tesseract OCR相关的所有配置，并使用现有代码从所有支持的格式中提取OCR文本。现有的代码使用简单解析器来提取数据。谁能帮我解释一下，当我们要从包含扫描图像的图像或pdfs中提取数据时，为什么我们使用RecursiveParserWrapper而不是普通的解析器。

浏览 3提问于2018-06-25得票数 0

1回答

我必须依靠哪一罐蒂卡？

java、dependencies、apache-tika

我想使用Tika提取.doc、.ppt等文件格式的文本。目前我依赖于tika-app-1.2.jar，但我认为依赖这个jar不是个好主意，因为这个jar是可运行的。此外，在解析.ppt文件时，它给出了这个运行时异常： org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.microsoft.OfficeParser@5de82b72 at org.apache.tika.parser.CompositeParser.parse(Composit

浏览 7提问于2013-04-21得票数 1

回答已采纳

2回答

搜索API附件不起作用

7、search

我在查Drupal 7.12。我需要对附加到节点的文件进行索引。(DOC、PDF、XLS等) 经过相当多的跟踪和错误，读取和搜索，我一直无法得到任何附件文件索引模块的工作。搜索API附件似乎是最有希望的，但在配置之后，它似乎没有索引任何文档。它确实调用Tika来处理新节点的附件，但似乎没有重新索引任何现有节点。搜索任何文件内容都不会产生任何结果。任何想法，我应该调查，以跟踪这一点，将不胜感激。有人成功运行这个模块吗？如果是的话，您是如何配置它的。更多信息：我遵循以下说明：http://permalink.gmane.org/gmane.comp.php.drupal.support/2

浏览 0提问于2012-03-16得票数 1

1回答

用于关键字提取的OpenNLP NLP工具

keyword、opennlp

我希望从一组文档(pdf、docx、txt)中提取关键字/标记，使用opennlp API进行标记。有人能建议我如何使用opennlp工具提取关键字吗？

浏览 5提问于2014-05-22得票数 2

1回答

自动排序依赖

java、maven、jar、apache-tika

我有一个外部库(比如A.jar)，它有很多我不想要的东西，还有一些我想要的东西。问题是，从我的源文件中(我用这个库编写的，只导入了其中的几个)，但是肯定只包括那些类无法工作(因为我尝试过了)。我不知道(非常大的) A.jar中的类文件的内部依赖性(如果这是什么)。问题--比如说，我用什么工具只将需要的类(以及我不知道的依赖项)导入到另一个文件夹(或另一个Jar文件)。Maven是正确的工具吗?如果是的话，我如何使用它来实现我的目标？图书馆是阿帕奇-蒂卡图书馆。我在代码中导入了以下内容。 import org.apache.tika.exception.TikaException; impo

浏览 0提问于2011-11-03得票数 1

1回答

使用DocuSign将自定义标记的功能拖放到我的web应用程序中？

c#、.net-core、docusignapi、draggable

我张贴这个问题后，搜索了大量的堆叠流，但没有找到任何答案。我希望将自定义字段拖放到我的PDF/Docx文件中，以便当我将此文档发送给收件人时，他/她会看到预先填充的信息。我为什么要这么做？因为我不想通过API使用嵌入式发送功能，因为它显示： 1.标准领域 2.其他领域 3.它还展示了DocuSign的外观和感觉为了更好的澄清，我也附上这张图片。如果您看到上面的图像，它只有从DocuSign填充的可拖动的自定义字段，但是整个用户体验都在web应用程序中，而不是导航到DocuSign控制台。即使我们必须使用DocuSign嵌入式发送，我如何才能只显示： 1.我自己创建的自定义字段

浏览 5提问于2022-02-09得票数 0

2回答

如何使用Apache从.wps文件中提取文本？

java、apache-tika

我正在使用Tika从几种类型的文档中提取文本。java -jar tika-app-1.10.jar -T输入文件我意识到Tika-1.10可以检测到.wps文件(java -jar tika-app-1.10.jar -m _.wps正在返回元数据)，但是它无法从.wps文件中提取文本(java -jar tika-app-1.10.jar -T _.wps文件不返回任何内容)。还有其他方法可以从Java中的wps文件中提取文本吗？任何帮助都是非常感谢的

浏览 5提问于2015-09-29得票数 0

回答已采纳

1回答

如何使用Tika的XWPFWordExtractorDecorator类？

java、apache-poi

有人告诉我Tika的XWPFWordExtractorDecorator类是用来将docx转换成html的。但是我不确定如何使用这个类从docx获取HTML。任何其他用于完成相同工作的库也很受欢迎

浏览 3提问于2012-01-29得票数 1

1回答

使用Tika API和Python与Microsoft文档发生422错误

python、apache-tika

在试图处理Microsoft文档(.docx、.xlsx等)时，我得到了422个错误。通过Tika使用python中的/tika端点。我已经尝试通过确保内容类型在标头中正确传递并且一个二进制文件被传递到端点来解决这个问题。期望看到打印的.docx文件的内容。这段代码适用于.pdf和.txt，但没有任何微软扩展工作。 def tika(files): url = 'https://[server_url]/tika' headers = {'Content-Type' : mimetype,'Cache-Control': &#

浏览 0提问于2019-06-28得票数 0

回答已采纳

2回答

如何确定fileBytes的扩展

java、download、http-headers、file-extension

我的应用程序允许用户下载文件。在创建标题时，我使用Tika设置扩展，如下所示。这对pdf文件很好。DOC和EXCEL文件失败。 private HttpHeaders getHeaderData(byte[] fileBytes) throws IOException, MimeTypeException { final HttpHeaders headers = new HttpHeaders(); TikaInputStream tikaStream = TikaInputStream.get(fileBytes); Tika tika =

浏览 14提问于2020-03-04得票数 2

1回答

SpringBoot中的Tika解析器配置

java、gradle、apache-tika

我在我的项目中使用了一个tika解析器。我正在使用这个包中的三个类： org.apache.tika.Tika; org.apache.tika.parser.txt.CharsetDetector; org.apache.tika.parser.txt.CharsetMatch; 上一次我将一个版本从Tika 1.0提升到Tika 1.20。然后，它开始发出警告，比如： WARN org.apache.tika.parser.SQLite3Parser : org.xerial's sqlite-jdbc is not loaded. Please provide the jar

浏览 2提问于2019-12-30得票数 0

回答已采纳

1回答

(如何)我可以使用Apache搜索.DOC、.PDF或.JAVA (等等)为一个短语归档？

java、xml、spring、pom.xml、apache-tika

当我正在搜索的驱动器被索引时，Windows 7搜索很少对我有效。自从我发现Windows 7没有XP“搜索狗”之后，我发现搜索几乎是不可能的，而且几乎是不可靠的(即从2010年起)，所以我用Java编写了自己的搜索程序，名为Searchy。但是，虽然它允许复杂的文件名模式匹配(.DOC*, .PDF, .XL*, .TXT, .XML是合法输入)，但Searchy不能搜索文件的CONTENTS中的单词和短语，比如private protected。我找到了，并下载了一个例程的.jar文件，并将其导入Netbeans 8.0.2，以便下面提供的示例程序tika-example (有点令人

浏览 4提问于2015-08-08得票数 0

回答已采纳

2回答

在RTF文件中提取obj数据的最简单方法

java、asp.net-core、rtf、apache-tika

我想提取RTF文件中嵌入的OLE对象。我更喜欢用Java语言实现它，所以我阅读了Apache Tika RTFParser (1.25 & 2.0-ALPHA)的文档和源代码，发现Tika只提取文本用于搜索目的，无法获取obj数据。也许基于TextExtractor编写一些代码是可行的。然后我也尝试了，但在PackagedObject.Extract中的if (type != 3) // 3 is file, 1 is link上出错。谁能帮我找出在RTF文件中提取obj数据的最简单的方法(更少的代码)？最好使用跨平台和服务器端解决方案(Java或.net-core)。而是使用Wo

浏览 48提问于2021-02-14得票数 0

1回答

DOCX数据的剪贴板格式

java、drag-and-drop、ms-word、clipboard、copy-paste

我的Java应用程序使用DocX4J生成DOCX格式的文档。我需要将它发送到剪贴板，以便在Word中粘贴。我知道Word将使用超文本标记语言，但我不愿将DOCX转换为超文本标记语言(我不确定DocX4J是否支持它，我也不愿丢失任何格式)。什么样的剪贴板格式(在Java术语中是DataFlavor)可以用来将DOCX数据发送到剪贴板，以便Word能够理解它？我正在对OpenOffice文档做类似的事情，为此我使用 DataFlavor odtFlavor = new DataFlavor("application/x-openoffice-embed-source-xml;"+

浏览 1提问于2011-09-02得票数 1

1回答

用于运行java命令的批处理文件

batch-file、docx

我必须对窗口中一个目录中的数百个.docx文件运行以下命令，以便将它们转换为.txt。 java -jar tika-app-1.3.jar -t somedocfile.doc > converted.txt 我想知道是否有任何自动的方法，比如编写一个".bat“文件来完成这个任务。

浏览 2提问于2015-06-18得票数 0

回答已采纳

2回答

用python2.7读取docx

python

我试图用以下代码读取包含文件的docx文件： from docx import Document doc = Document('test.docx') 但当我试图打印它时，我得到了这个： <docx.api.Document object at 0x02952C70> 如何读取文件中的内容？我听说docx最近变了，所以旧的问题/答案不再适用了。

浏览 3提问于2014-07-23得票数 1

回答已采纳

3回答

Yomu和Heroku

java、ruby-on-rails-3、heroku

我刚刚在我的应用程序中安装了'yomu‘gem ()并部署到heroku。在我的本地机器(Mac )上它运行得很好。我在文档中注意到，它需要JRE才能工作。当我在Heroku上运行应用程序时，我得到以下错误： Errno::ENOENT (No such file or directory - java -Djava.awt.headless=true -jar /app/.bundle/gems/ruby/1.9.1/gems/yomu-0.1.1/jar/tika-app-1.1.jar -t): 我假设yomu在Heroku上找不到java编译器。我没看错吧？如果是，有没有我没

浏览 4提问于2012-05-23得票数 0

回答已采纳

1回答

如何获得带有tika 1.6的文本内容文件？

jakarta-ee、apache-tika

嗨，我试着从这个列表中的任何文件( pdf，txt，doc，docx和odt )中获取文本内容--使用tika的实现以前很好，但是现在坏了，代码是： ```javascript 公共空uploadFile(FileUploadEvent事件)引发异常{ UploadedFile file = event.getUploadedFile()； byte[] data = file.getData()； Tika tika =新的Tika()； string =tika.parseToString(新ByteArrayInputStream(数据))； ..。 } 有什么想法吗?糟糕的执行？

浏览 1提问于2015-01-15得票数 1

回答已采纳

1回答

如何使用apache-poi获取文件的全部内容？

java、ms-word、apache-poi、docx

我尝试使用help java api Apache POI读取文件.docx。我使用： public static String view(String nameDoc){ String text = null; try{ XWPFDocument docx = new XWPFDocument( new FileInputStream(nameDoc)); XWPFWordExtractor we = new XWPFWordExtractor(docx); text = we.getText()

浏览 17提问于2016-09-16得票数 1

4回答

如何使用C#读取.docx文件？

c#、xml、ms-word、office-interop、docx

我想在c#中读取docx文件。docx文件在转换为.zip时会生成我们的文件的xml。我想读取那个xml文件。我需要所有的数据从文件的字体名称(粗体斜体设置)，颜色从文件。我们该怎么做呢？

浏览 0提问于2011-12-17得票数 1

回答已采纳

2回答

如何在安卓系统中获取mp3文件中的嵌入图片？

android

我想在我的mediaplayer应用程序中显示唱片集图片。我为api7 (2.1)开发它。我使用了getEmbedPicture()方法，但是它给出了错误，并且我找不到错误。它有什么问题？ retriver.setDataSource(serviceBinder.path+serviceBinder.track); try{ InputStream is=new ByteArrayInputStream(retriver.getEmbeddedPicture()); if(is==null) cover.setImag

浏览 3提问于2013-11-13得票数 0

4回答

如何使用Apache 1.5解析大型文本文件？

java、out-of-memory、apache-tika

问题:对于我的测试，我想从一个335 MB的文本文件中提取文本数据，这个文本文件是维基百科使用Apache的“分页器-20140701-060000.txt”。我的解决方案：我尝试使用TikaInputStream，因为它提供了缓冲，然后我尝试使用BufferedInputStream，但这并没有解决我的问题。下面是我的测试课程： import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.

浏览 7提问于2014-07-03得票数 4

回答已采纳

1回答

如何使用Apache Tika Server从PDF中提取内联图像并将其保存为文件？

apache-tika、tika-server

有没有办法做到这一点？我在对http://localhost:9998/tika的PUT请求中使用了以下标头 "Content-Type", "application/pdf" "X-Tika-OCRLanguage", "eng" "X-Tika-PDFextractInlineImages", "true" "X-Tika-PDFOcrStrategy", "no_ocr" 响应是否会包含图像？如果是这样，我该如何保存它们呢？使用Apache Tika服务器1.

浏览 48提问于2021-06-02得票数 0

1回答

Tika解析给出了达到最大限制的错误。

java、apache-tika

我使用Apache从PDF文件中获取内容。当我运行它，我得到以下错误。我在任何地方都没有看到这个错误被记录下来，这只是一个糟糕的惊喜。 org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit.

浏览 0提问于2017-02-22得票数 0

回答已采纳