我正在尝试解析几个包含工程图的PDF文件,以获取这些文件中的文本数据。我尝试将TIKA作为jar与python一起使用,并将其与jnius包一起使用(在这里使用本教程:),但是代码抛出了一个错误。
使用TIKA包,我可以传递文件并解析它们,但Python只能提取元数据,当被要求解析内容时,Python返回输出"none“。它能够完美地解析.txt文件,但无法提取PDF的内容。下面是代码
import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('/path/to/file')
我正在尝试从pdf文档中提取文档元数据和日志标题元数据。我验证了Tika Server (v1.21 / v1.24)和Grobid (v0.6.0)能够独立地从pdf文档中提取元数据。然而,当我在Tika Server中运行Grobid (遵循https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的指令)时,我得到相同pdf文档的以下错误(代码片段): org.xml.sax.SAXParseException; Premature end of file.
at org.apache.
我的问题和这个人的问题很相似:
但不完全是。他的问题似乎是阅读了某些文档,但是Tika工作得很好,而对我来说,文档很好,但是Tika失败了。直到4周前,我还使用过以下python代码,没有任何问题:
from tika import unpack
result = unpack.from_file(file)
注意:我无法缩进上述代码。它将跳到下一节
当我使用这段代码时,它只是输出一个空字典。我收到警告:
Tika服务器返回状态:422
但没有错误信息。这发生在我所有的PDF文档中,所以问题不是PDF文档。此外,我在过去经常使用这个完全相同的代码,没有任何问题。我绝对没有使用Tika
我们一直在我们的服务器中随机获取NoClassDefFoundError。它偶尔会抛出这个错误,而且大多数情况下它不会抛出任何问题。这种奇怪行为的原因是什么?以下是例外情况。
java.lang.NoClassDefFoundError: Could not initialize class com.github.junrar.Archive
at org.apache.tika.parser.pkg.RarParser.parse(RarParser.java:75)
at org.apache.tika.parser.CompositeParser.parse(CompositeParse
我使用Apache从PDF文件中获取内容。当我运行它,我得到以下错误。我在任何地方都没有看到这个错误被记录下来,这只是一个糟糕的惊喜。
org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit.
Hi Tika Server是用tesseract设置的,但它仍然没有读取PDF中的嵌入式图像。尝试使用两个可用的标题,但没有帮助。
这种情况只发生在PDF文件上。同时,OCR适用于其他文件类型/图像。
这里使用定制的码头集装箱。奇怪的是,部署在另一台机器中的同一个容器工作。是否有可能出现较低级别的问题?
更新:在比较日志之后,似乎降低了自定义的headers,如x.、postman令牌到x-tika.、Postman-Token等等。有人能在可能的问题上帮助我吗?
在将PDFBOX版本升级到1.6.0之后,我试图使用Apache解析pdf文件.我开始得到这个错误的几个pdf文件。有什么建议吗?
java.io.IOException: expected='endstream' actual='' org.apache.pdfbox.io.PushBackInputStream@3a72d4e5
at org.apache.pdfbox.pdfparser.BaseParser.parseCOSStream(BaseParser.java:439)
at org.apache.pdfbox.p
我有一些小的和大的PDF,我试图用python解析成字符串格式。我有本地Tika服务器和转换工作文件,大约200 pdf的文件大小,但现在我有1.3GBpdf。因此,当我试图转换它时,parser.from_file(large.pdf)返回None。据我估计,大文件似乎存在内存问题。
因此,我的基本问题是,为什么大pdf返回None,以及如何克服它?
部分代码段:
import os
import sys
import glob
from tika import tika, parser
from helpers.helper import file_paths
# Set the req
是否可以更改tika的langauge (默认检测)?
我试图使用泰米尔语的pdf文件。(语言代码'ta')。但蒂卡发现它是'th‘(泰语)。虽然大多数字符都能很好地识别,但它并没有脱离几个字符。
参见下面的示例,其中一些“o”出现在文本之间。
ஓவச-அக்ைரும்பாகலைளில்ைருப்பஞ்ொறுபாய்வதால்எழுகின்றஓகெயும்;வவவலச்சங்கின்வாய்ப்கபாங்கும்ஓவச-நீர்க்ைகரைளில்உள்ளெங்குைளிடமிருந்து
from tika import language
print(lan
我有一个PDF,我试图让Tika去解析。PDF不是OCR。我的机器上安装了Tesseract。
我使用ImageMagik将file.tiff转换为file.pdf,所以我正在解析的tiff文件是从PDF直接转换出来的。
Tika分析TIFF没有问题,但返回PDF的“无”内容。怎么回事?我用的是Tika 1.14.1,tesseract 3.03,轻子-1.70
这是密码..。
from tika import parser
# This works
print(parser.from_file('/from/file.tiff', 'http://localhost
我有一个下载的PDF在中国,我想提取文本从使用提卡+ Python (原始链接到完整的PDF可以找到,或提取的样本页面可以找到)。
当我运行以下代码时
analysed_file = 'D:\\5_Programming\\test.pdf'
# Parse data from file
file_data = parser.from_file(analysed_file, "http://localhost:9998/")
# Get files text content
text = file_data['content']
print(
在进行任何进一步处理之前,我需要确保用户提供的文件在包含文本时被转换为.txt文件。
目前,我有一个开关语句,检查特定格式,并从这些格式转换为.txt格式。
switch (extension)
{
case ".pdf":
//Convert from .pdf to .txt file
break;
case ".doc":
//Convert from .doc to .txt file
break;
default:
Console.WriteLine