分析pdf文档时出现Grobid抛出错误的Tika_分析提取的get_xbrl_statement实例文档时出现Finstr XBRL错误 - 腾讯云开发者社区

apache-tika

我想使用Tika服务器使用POST请求从pdfs中提取文本。但是，当PDF的尺寸太大时，就会出现413实体太大的错误。如何增加大小？我的请求是这样的： curl -F upload=@price.xls URL http://localhost:9998/tika/form

浏览 13提问于2020-12-17得票数 0

1回答

Spark - Scala:解析和提取同时包含文本和图像的文档- .doc、.docx文件

scala、apache-spark-2.0

我有几个文件(doc，docx文件)，其中包含图像和文本。我想解析这些文件并提取内容，有或没有图像细节。目前我使用的是Apache Tika，它拒绝解析这样的文件。它完美地工作于PDF，和纯文本.doc，.docx文件。但是包含图像的文件抛出错误： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.commons.compress.utils.IOUtils.readFully(Ljava/io/InputStream;[B)I at org.apache.tika.parser.pk

浏览 9提问于2017-07-08得票数 0

回答已采纳

5回答

如何在Python2.7中使用Tika package(https://github.com/chrismattmann/tika-python)来解析PDF文件？

python、parsing、pdf、apache-tika

我正在尝试解析几个包含工程图的PDF文件，以获取这些文件中的文本数据。我尝试将TIKA作为jar与python一起使用，并将其与jnius包一起使用(在这里使用本教程：)，但是代码抛出了一个错误。使用TIKA包，我可以传递文件并解析它们，但Python只能提取元数据，当被要求解析内容时，Python返回输出"none“。它能够完美地解析.txt文件，但无法提取PDF的内容。下面是代码 import tika tika.initVM() from tika import parser parsed = parser.from_file('/path/to/file')

浏览 0提问于2015-10-12得票数 3

1回答

分析pdf文档时出现Grobid抛出错误的Tika

tika-server、grobid

我正在尝试从pdf文档中提取文档元数据和日志标题元数据。我验证了Tika Server (v1.21 / v1.24)和Grobid (v0.6.0)能够独立地从pdf文档中提取元数据。然而，当我在Tika Server中运行Grobid (遵循https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的指令)时，我得到相同pdf文档的以下错误(代码片段)： org.xml.sax.SAXParseException; Premature end of file. at org.apache.

浏览 59提问于2020-07-16得票数 1

3回答

如何使用tika库解析pdf

python-3.x、pdf、apache-tika、text-extraction

我正在尝试使用tika库解析一个pdf文件，但是我得到了这个复杂的错误 Traceback (most recent call last): File "/home/olivia/.local/lib/python3.6/site-packages/urllib3/connection.py", line 141, in _new_conn (self.host, self.port), self.timeout, **extra_kw) File "/home/olivia/.local/lib/python3.6/site-packages/urll

浏览 0提问于2018-02-09得票数 0

1回答

将多个二进制文件索引为唯一的solrDocument

indexing、solr、lucene

我想为同一个Solr ID索引多个pdf文件。对于我们的一个项目，我们有一些表示如下的对象： {"id" : "object:1234", "authors" : ["me", "you", ...], "keywords": ["key1", "key3", ...], "files" : [ "/tmp/file1.pdf", "/tmp/file2.pdf", "/tm

浏览 1提问于2017-09-04得票数 0

回答已采纳

2回答

如何确定fileBytes的扩展

java、download、http-headers、file-extension

我的应用程序允许用户下载文件。在创建标题时，我使用Tika设置扩展，如下所示。这对pdf文件很好。DOC和EXCEL文件失败。 private HttpHeaders getHeaderData(byte[] fileBytes) throws IOException, MimeTypeException { final HttpHeaders headers = new HttpHeaders(); TikaInputStream tikaStream = TikaInputStream.get(fileBytes); Tika tika =

浏览 14提问于2020-03-04得票数 2

1回答

识别pdf类型

tesseract、apache-tika

Apache Tika中有没有检查pdf类型的选项:原生pdf (纯)或扫描pdf？如果没有，也许我可以在Tika使用的tesseract中检查它。

浏览 28提问于2020-09-23得票数 0

1回答

当问题与pdf无关时，如何处理Tika Server警告422？

python、apache-tika

我的问题和这个人的问题很相似：但不完全是。他的问题似乎是阅读了某些文档，但是Tika工作得很好，而对我来说，文档很好，但是Tika失败了。直到4周前，我还使用过以下python代码，没有任何问题： from tika import unpack result = unpack.from_file(file) 注意:我无法缩进上述代码。它将跳到下一节当我使用这段代码时，它只是输出一个空字典。我收到警告： Tika服务器返回状态:422 但没有错误信息。这发生在我所有的PDF文档中，所以问题不是PDF文档。此外，我在过去经常使用这个完全相同的代码，没有任何问题。我绝对没有使用Tika

浏览 0提问于2019-01-09得票数 0

1回答

我想将tika解析配置为仅在PDF上执行OCR

pdf、ocr、apache-tika

我正在尝试操作tika配置文件(使用tika服务器)，以便从OCR处理中排除除PDF之外的所有文档。我尝试了许多组合，例如从默认解析器中排除OCR，但将PDF解析器配置为进行内联处理。我尝试配置自动策略。我从默认解析器中排除了PDF和Tesseract。不走运。我最终运行了两个tika实例，一个配置了OCR，另一个没有配置，并根据扩展名将文件定向到代码中的一个或另一个。我使用的是python tika客户端。有没有更好的方法？更普遍的是，有没有在tika中配置解析器参数的全面指南？我所看到的大多数都是零散的。谢谢。

浏览 31提问于2020-08-27得票数 0

1回答

正在尝试解析二进制数据...在我的例子里大部分是pdf格式的

java、parsing、apache-tika

这个代码有什么问题..。我正在尝试解析pdf文件并从中提取文本...但是对于一些pdf，我能够提取文本...对于某些人来说，它抛出了错误 Invalid dictionary, found: '' but expected: '/' org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.pdf.PDFParser@67fb878 我也没有在一些pdf的md变量中得到任何元数据值…但对某些人来说我能理解。这是我的代码..！B

浏览 4提问于2011-09-16得票数 3

回答已采纳

1回答

PDF格式转换成错误的文本

python、pdfminer

我正在使用pdfminer从许多PDF文件中提取文本。一些pdf文件的结果文本文件是奇怪的，其中每一行只相交一个字符。不是所有的PDF文件，但他们中的一些，我仍然无法找出为什么和哪些PDF文件将导致这个问题。这是我的代码： def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr,

浏览 2提问于2016-06-23得票数 0

2回答

是什么导致java.lang.NoClassDefFoundError随机发生？

java、ant、noclassdeffounderror

我们一直在我们的服务器中随机获取NoClassDefFoundError。它偶尔会抛出这个错误，而且大多数情况下它不会抛出任何问题。这种奇怪行为的原因是什么？以下是例外情况。 java.lang.NoClassDefFoundError: Could not initialize class com.github.junrar.Archive at org.apache.tika.parser.pkg.RarParser.parse(RarParser.java:75) at org.apache.tika.parser.CompositeParser.parse(CompositeParse

浏览 4提问于2020-07-22得票数 1

1回答

如何使用Apache Tika Server从PDF中提取内联图像并将其保存为文件？

apache-tika、tika-server

有没有办法做到这一点？我在对http://localhost:9998/tika的PUT请求中使用了以下标头 "Content-Type", "application/pdf" "X-Tika-OCRLanguage", "eng" "X-Tika-PDFextractInlineImages", "true" "X-Tika-PDFOcrStrategy", "no_ocr" 响应是否会包含图像？如果是这样，我该如何保存它们呢？使用Apache Tika服务器1.

浏览 48提问于2021-06-02得票数 0

1回答

Tika解析给出了达到最大限制的错误。

java、apache-tika

我使用Apache从PDF文件中获取内容。当我运行它，我得到以下错误。我在任何地方都没有看到这个错误被记录下来，这只是一个糟糕的惊喜。 org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit.

浏览 0提问于2017-02-22得票数 0

回答已采纳

1回答

Apache从哪里获得它的“计数”？

java、pdf、apache-tika

如果我有以下代码可读取PDF中的段落数(Office.PARAGRAPH_COUNT)： TikaInputStream pdfStream = TikaInputStream.get(new File("some-doc.pdf")); ContentHandler handler = new DefaultContentHandler(); Metadata pdfMeta = new Metadata(); ParseContext pc = new ParseContext(); Parser parser = TikaConfig.getDefaultConfig

浏览 1提问于2013-02-21得票数 0

回答已采纳

2回答

Tika服务器不读取PDF中的嵌入式图像

openshift、tesseract、apache-tika、rhel7、tika-server

Hi Tika Server是用tesseract设置的，但它仍然没有读取PDF中的嵌入式图像。尝试使用两个可用的标题，但没有帮助。这种情况只发生在PDF文件上。同时，OCR适用于其他文件类型/图像。这里使用定制的码头集装箱。奇怪的是，部署在另一台机器中的同一个容器工作。是否有可能出现较低级别的问题？更新:在比较日志之后，似乎降低了自定义的headers，如x.、postman令牌到x-tika.、Postman-Token等等。有人能在可能的问题上帮助我吗？

浏览 4提问于2021-03-10得票数 0

回答已采纳

1回答

tika装置

solr、nutch、apache-tika

我按照中提供的说明将Tika与Solr集成如果我错了，纠正我，在我看来，它可以索引位于我自己系统上的文档文件(pdf，doc，音频)(给定存储这些文件的目录的路径)，但是当我使用nutch爬行一些站点时，它不能索引那些位于互联网上的文件。我可以索引文件文件(pdf，音频，文档，压缩)在网上使用Tika？

浏览 2提问于2012-08-01得票数 1

回答已采纳

1回答

如何使用Tika解析器/ Java检测pdf是否为扫描文档

java、pdf、ocr、apache-tika

我正在尝试从pdf文件中提取文本。但在某些情况下，pdf文件是硬文档的扫描副本。有没有办法可以找出给定的pdf文件是扫描过的文件还是普通的pdf文件？

浏览 1提问于2017-02-11得票数 0

1回答

如何获得带有tika 1.6的文本内容文件？

jakarta-ee、apache-tika

嗨，我试着从这个列表中的任何文件( pdf，txt，doc，docx和odt )中获取文本内容--使用tika的实现以前很好，但是现在坏了，代码是： ```javascript 公共空uploadFile(FileUploadEvent事件)引发异常{ UploadedFile file = event.getUploadedFile()； byte[] data = file.getData()； Tika tika =新的Tika()； string =tika.parseToString(新ByteArrayInputStream(数据))； ..。 } 有什么想法吗?糟糕的执行？

浏览 1提问于2015-01-15得票数 1

回答已采纳

1回答

为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本？

tesseract、apache-tika

我使用TIKA和Tesseract从包含扫描图像的pdf文件中提取OCR文本。我已经设法用ResursiveParserWrapper而不是解析器解析包含图像的pdf文档，它工作得很好，但是客户端希望在其他地方完成与Tesseract OCR相关的所有配置，并使用现有代码从所有支持的格式中提取OCR文本。现有的代码使用简单解析器来提取数据。谁能帮我解释一下，当我们要从包含扫描图像的图像或pdfs中提取数据时，为什么我们使用RecursiveParserWrapper而不是普通的解析器。

浏览 3提问于2018-06-25得票数 0

2回答

Tika检测docx文件为Zip

java、apache-tika

我有以下测试代码来检测docx内容类型： @Test public void testContentTypeOfaWordDOCXFileIsReturnedCorrectlyByTheServer() throws IOException, TikaException { File docxFile = new File(FILE_COMPLETE_PATH); InputStream inputStream = new FileInputStream(docxFile); MediaType mediaType=spyServlet.

浏览 8提问于2016-08-23得票数 4

1回答

用solr 6.4.1配置Tesseract

solr、solr4、apache-tika、sunspot-solr

如何使用solr 6.4.1配置Tika OCR。我索引的文档包括PDF，图像和MS办公文档，但问题是，Tika没有从图像中提取文本，也没有从PDF和MS办公文档中提取文本。为此，我研究了使用Tika OCR。为此，我正在安装tika-app-1.7.jar和Tesseract，但是我不知道如何用我的solr核心来配置它们。

浏览 4提问于2017-03-25得票数 2

回答已采纳

1回答

上传Word文件通过TIKA REST提取文本

delphi、lazarus、apache-tika、indy10

我试图通过他们的REST调用Apache。我已经成功地上传了PDF文档并通过CURL返回了文档的文本 curl -X PUT --data-binary @<filename>.pdf http://localhost:9998/tika --header "Content-type: application/pdf" 翻译成印地： function GetPDFText(const FileName: String): String; var IdHTTP: TIdHTTP; Params: TIdMultiPartFormDataStream; beg

浏览 5提问于2020-02-19得票数 1

回答已采纳

2回答

基于FileName的内容类型检测

java、apache-tika

我正在尝试使用Apache Tika来确定内容类型(即.pdf文件的- application/pdf )。我想使用Apache Tika的org.apache.tika.detect.NameDetector类。我的问题是它的detect方法只接受InputStream。我无权访问文件的InputStream。我只有文件的名称(即- myFile.pdf)。有没有什么好方法可以使用Apache Tika仅根据文件的扩展名/名称来确定内容类型？(注意-我希望避免创建具有所需名称的临时文件，以确定其内容类型。) 谢谢。

浏览 1提问于2014-03-07得票数 2

1回答

如何读取亚洲语言(中文、日文、泰文等)的PDF文件并将字符串存储在python中。

python、unicode、nlp、text-extraction、pdf-reader

我使用PyPDF2读取python中的PDF文件。虽然它适用于英语和欧洲语言的语言(英文字母)，但图书馆无法阅读亚洲语言，如日语和汉语。我试过encode('utf-8')，decode('utf-8')，但是似乎没有什么效果。它只是在提取文本时打印一个空字符串。我尝试过其他库，如textract和PDFMiner，但都没有成功。当我从PDF中复制文本并将其粘贴到笔记本上时，字符就会变成一些随机格式的文本(可能是以不同的编码方式)。 def convert_pdf_to_text(filename): text = '' pd

浏览 1提问于2018-06-22得票数 4

回答已采纳

1回答

Apache :在tika-server上为opennlp模型设置类路径

apache-tika

我似乎无法为tika-服务器设置类路径，以便正确检测opennlp模型。我按照这里的指示： (用app代替-server，看起来它包含了所需的一切) 我已经创建了以下文件夹结构 tika `-- tika-ner-resources `-- org `-- apache `-- tika `-- parser `-- ner `-- opennlp |-- ner-location.bin

浏览 1提问于2018-08-20得票数 1

回答已采纳

1回答

从tika-server获取hocr输出

tesseract、apache-tika、tika-server、hocr

我正在使用对PDF文件执行OCR操作。我对输出感兴趣，但只成功地获得了纯文本格式的输出。在和之后，我尝试使用X-Tika-OCR... headers配置Tesseract。在本例中，我使用的是X-Tika-OCRoutputType: hocr header，但是我获得了纯文本输出或没有HOCR标记的html输出。我尝试了/tika和/rmeta端点。我使用的curl命令： curl -v -X PUT --data-binary @file.pdf \ "http://tika-server:8081/tika" \ -H "Conten

浏览 5提问于2020-01-09得票数 2

回答已采纳

1回答

使用java中的Apache从pdf文件中提取文本

java、apache、apache-tika

try { File file = new File("Example.pdf"); String content = new Tika().parseToString(file); System.out.println("The Content: " + content); } catch (Exception e) { e.printStackTrace(); } 我已经导入了java.io.File和导入了org.apache.tika.Tika；但是在运行这段代码时，我得到了如下错误：

浏览 3提问于2017-07-31得票数 4

回答已采纳

1回答

解析二进制文件时出错

java、pdfbox、apache-tika

在将PDFBOX版本升级到1.6.0之后，我试图使用Apache解析pdf文件.我开始得到这个错误的几个pdf文件。有什么建议吗？ java.io.IOException: expected='endstream' actual='' org.apache.pdfbox.io.PushBackInputStream@3a72d4e5 at org.apache.pdfbox.pdfparser.BaseParser.parseCOSStream(BaseParser.java:439) at org.apache.pdfbox.p

浏览 4提问于2011-09-20得票数 0

2回答

如何用python使用AWS将pdf文件转换为.txt

python、amazon-s3、aws-lambda、pypdf2、pdftotext

我需要在python 3.7中使用AWS lambda自动将许多pdf转换为文本文件我已经在自己的机器上使用poppler/pdftotext、tika和PyPDF2成功地转换了pdf文件。但是，tika超时或需要在主机上运行java实例，我不确定如何设置。pdftotext需要poppler，而在lambda上运行它的所有解决方案似乎都过时了，或者我只是不太熟悉二进制，无法理解该解决方案。PyPDF2似乎是最有前途的，但是测试会抛出一个错误。我得到的PyPDF2代码和错误如下： pdf_file = open(s3.Bucket(my_bucket).download_file(

浏览 22提问于2019-06-27得票数 0

回答已采纳

2回答

Apache检测JSON / PDF特定的mime类型

java、mime-types、apache-tika

我使用从它的base64 rapresentation中检测出一个文件Mime。不幸的是，我没有关于该文件的其他信息(例如扩展名)。我能做些什么让蒂卡更具体一点吗？我现在用的是： Tika tika = new Tika(); tika.setMaxStringLength(-1); String mimetype = tika.detect(Base64.decode(fileString)); 它给了我text/plain的JSON和PDF文件，但我想获得更具体的信息：application/json，application/pdf等. 希望有人能帮我！谢谢。

浏览 0提问于2018-02-05得票数 4

回答已采纳

1回答

与PDF文件一起使用Solr

pdf、solr、solrnet

我想在PDF文件中使用Solr，但我不知道如何配置solrconfig.xml和schema.xml。我应该在那些文件里写些什么？其目的是用同义词或拼写检查器进行全文搜索。(我在Windows上使用Solr，以后我将使用API SolrNet).Thank you！

浏览 1提问于2018-06-21得票数 0

回答已采纳

1回答

如何将pdf文件转换为apache tika中的文本

java、pdf、apache-tika

我正在尝试使用apache将pdf文件转换为文本文件。我正在使用下面的代码 curl file:////home/C:\Apache\list costs closed.pdf | java -jar tika-app-1.6.jar --text --encoding=US-ASCII | xargs -0 > list costs closedText 但是当我在命令程序中运行这段代码时，我得到了这个错误。 “‘curl”不被识别为内部或外部命令、可操作的程序或批处理文件。我已经设置了java环境变量。这听起来可能是重复的问题，但我尝试谷歌通过其他链接，我无法解决它

浏览 1提问于2018-01-16得票数 0

1回答

基于Cron的Tika和Solr Drupal 7索引

drupal、search、solr、attachment、apache-tika

使用Drupal/Search模块/Solr/Tika，我们正在尝试索引大量文件。我已经设置了索引，一切都很好，直到我包含了Search附件模块。当我们运行cron时，没有调用tika。我们之所以知道这一点，是因为我们在tika模块的末尾插入了一个PHP代码片段，将其写入系统日志，而该消息永远不会出现。它在手动运行索引时确实会显示出来。此外，在运行cron之后，项索引的数量不会上升。我们还注意到，如果从命令行运行tika，则在输出顶部出现以下错误: INFO -不支持/禁用操作: EI 索引按预期工作，无需选中框以索引cron上的附件和手动索引。知道有什么问题吗？谢谢! 建立在以下

浏览 5提问于2012-09-25得票数 2

1回答

使用python的Tika服务器对大文件不返回任何内容，但是使用小pdfs返回工作文件。

python、pdf、apache-tika、tika-server

我有一些小的和大的PDF，我试图用python解析成字符串格式。我有本地Tika服务器和转换工作文件，大约200 pdf的文件大小，但现在我有1.3GBpdf。因此，当我试图转换它时，parser.from_file(large.pdf)返回None。据我估计，大文件似乎存在内存问题。因此，我的基本问题是，为什么大pdf返回None，以及如何克服它？部分代码段： import os import sys import glob from tika import tika, parser from helpers.helper import file_paths # Set the req

浏览 3提问于2021-01-07得票数 1

1回答

使用Apache Tika提取大文件

go、apache-tika

我使用Apache Tika和Go从任何类型的文件(.txt，.docx，.pdf等)中提取内容，代码如下。 file, err := os.Open("foo.docx") if err != nil { fmt.Println(err) } client := tika.NewClient(nil, "http://localhost:9998/") body, err := client.Parse(context.Background(), file) 它可以很好地提取内容，但问题是，如果文件大小更大，时间误差可能会生成V

浏览 14提问于2021-01-07得票数 0

1回答

Tika返回空字符串

java、apache-tika

我正在使用Apache 1.14和pdf方框2.0.5。当我试图从pdf文档中提取内容时，它返回的是空字符串。 import java.io.File; import java.io.IOException; import org.apache.tika.Tika; import org.apache.tika.exception.TikaException; public class Test { public static void main(String args[]) throws IOException, TikaException{ String fil

浏览 2提问于2017-03-30得票数 3

回答已采纳

2回答

tika语言的变化

python、nlp、apache-tika、tamil

是否可以更改tika的langauge (默认检测)？我试图使用泰米尔语的pdf文件。(语言代码'ta')。但蒂卡发现它是'th‘(泰语)。虽然大多数字符都能很好地识别，但它并没有脱离几个字符。参见下面的示例，其中一些“o”出现在文本之间。 ஓவச-அக்ைரும்பாகலைளில்ைருப்பஞ்ொறுபாய்வதால்எழுகின்றஓகெயும்；வவவலச்சங்கின்வாய்ப்கபாங்கும்ஓவச-நீர்க்ைகரைளில்உள்ளெங்குைளிடமிருந்து from tika import language print(lan

浏览 3提问于2020-10-24得票数 0

2回答

Python返回PDF的“无”内容，但与TIFF的

python、python-2.7、tesseract、apache-tika、tika-server

我有一个PDF，我试图让Tika去解析。PDF不是OCR。我的机器上安装了Tesseract。我使用ImageMagik将file.tiff转换为file.pdf，所以我正在解析的tiff文件是从PDF直接转换出来的。 Tika分析TIFF没有问题，但返回PDF的“无”内容。怎么回事？我用的是Tika 1.14.1，tesseract 3.03，轻子-1.70 这是密码..。 from tika import parser # This works print(parser.from_file('/from/file.tiff', 'http://localhost

浏览 1提问于2018-01-04得票数 2

回答已采纳

1回答

从数据库索引的solr二进制文件内容

solr

大家好，我想知道有没有人能帮我解决这个问题。我是solr的新手，我正在尝试索引二进制文件，如.pdf、.docx……问题是我的solr配置对文件进行了索引，但是当我运行查询时，它不会显示文件中的内容。我使用的是默认的schema.xml。对于data-config.xml，我使用以下配置： <dataConfig> <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://loca

浏览 6提问于2013-03-07得票数 0

2回答

如何修复在Apache Tika for Python中解析的中文PDF以正确读取字符？

python、pdf、character-encoding、apache-tika

我有一个下载的PDF在中国，我想提取文本从使用提卡+ Python (原始链接到完整的PDF可以找到，或提取的样本页面可以找到)。当我运行以下代码时 analysed_file = 'D:\\5_Programming\\test.pdf' # Parse data from file file_data = parser.from_file(analysed_file, "http://localhost:9998/") # Get files text content text = file_data['content'] print(

浏览 1提问于2020-09-07得票数 0

1回答

Solr 8.4.1云: bin/post -找不到文件问题

solr

我是Solr的新手，并且一直在学习8.4.0的教程。在使用SolrCloud成功地遵循了techproducts示例之后，我现在尝试使用一种无模式的方法来索引一些PDF文件。为此，我使用了以下内容(同样来自本教程)来索引存储在~/Documents/pdf文件夹中的几个文件： bin/solr create -c localpdf -s 2 - rf 2 bin/post -c localpdf ~/Documents/pdf 在执行上面的代码时，我得到以下错误： SimplePostTool: WARNING: Response: <html> <head> <

浏览 11提问于2020-01-23得票数 2

回答已采纳

1回答

Solr的TikaEntityProcessor不工作

solr、apache-tika、solr-cell

我正在尝试让Solr索引一个数据库，其中的一列是我想要索引的PDF文档的文件名。我的配置如下所示： <dataConfig> <dataSource name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/document_db" user="user" password="password" readOnly="true"/> <dataSource name="ds-

浏览 2提问于2010-06-02得票数 3

回答已采纳

1回答

Nutch / Solr - Document在field=“内容”中至少包含一个庞大的术语

solr、nutch

在爬行时，我们在解析巨大的PDF时遇到了这个问题。抛出的错误如截图所示。我尝试将"content“的类型更改为"text_general”或"string“，但无济于事。

浏览 0提问于2017-06-30得票数 0

1回答

一般读取任何文件格式并将其转换为.txt格式

c#、file、text、ikvm

在进行任何进一步处理之前，我需要确保用户提供的文件在包含文本时被转换为.txt文件。目前，我有一个开关语句，检查特定格式，并从这些格式转换为.txt格式。 switch (extension) { case ".pdf": //Convert from .pdf to .txt file break; case ".doc": //Convert from .doc to .txt file break; default: Console.WriteLine

浏览 3提问于2016-12-11得票数 0

回答已采纳

2回答

如何修复“无法读取JPEG2000映像:未安装Java高级映像(JAI)映像I/O工具”

java、pdfbox、apache-tika、jai

我正在设置一个java项目，在这个项目中我使用pdfBox从PDF中获取图像。由于我将tika-app用于其他功能，因此我决定在tika-app-1.20.jar中使用pdfBox present。我以前尝试过包含jai-imageio-core-1.3.1.jar，因为Tika-app已经与这个jar捆绑在一起了。我尝试了单独使用tika-app jar。抛出错误的代码行 PDXObject object = resources.getXObject(cosName); 错误的日志跟踪： org.apache.pdfbox.filter.MissingImageReaderExcept

浏览 235提问于2019-08-29得票数 6

回答已采纳

1回答

如何从tika-python lib设置TIKA_SERVER_ENDPOINT

python、apache-tika、tika-server

在https://github.com/chrismattmann/tika-python上的优秀lib tika-python文档中显示，可以将tika_server.jar文件设置为避免每次使用算法时都要下载。有没有人这样做了，可以发布配置？第一次使用该算法时，会下载tika_server.jar，以便库可以使用它。我想通过在本地设置文件来避免这种下载。从PDF中提取文本 def extraiPDF(f): resultado = [] tika.TikaClientOnly = True raw = parser.from_file(f) metad

浏览 38提问于2019-07-01得票数 0

回答已采纳

1回答

Apache Tika无法从大型pdf中提取全文内容。

java、pdf、apache-tika、text-extraction

我试图从一个大型pdf (未扫描/光栅化pdf)文件中使用apache提取文本。但在提取文本时，我比较原始(从pdf)和提取的文本，我发现，大量的文本内容是缺失的。我已经尝试使用setMaxStringLength(-1)和BodyContentHandler(-1)来最大化输出。但仍然无法从pdf文件中提取全文内容。下面是我试过的两个样品。样本:1 public class Extract { public static void main( String[] args ) throws IOException, SAXException, TikaException

浏览 1提问于2016-11-14得票数 0

回答已采纳

1回答

Python - Tika Parser -内容未加载

python、apache-tika、tika-server

直到几天前，我还能够使用tika解析几个PDF。我没有从代码中更改任何内容，但通过运行以下代码，我再也无法查看这些PDF中的内容： from tika import parser raw = parser.from_file('reits.pdf', 'http://localhost:9998/tika') print(raw['content']) 直到最近，conda install -c conda-forge tika的最新安装还很正常。问题似乎是Java没有激活。当我查看metadata时，我得到了以下错误 'X-TIK

浏览 3提问于2020-05-17得票数 1