PDFPlumber返回符号和不准确的文本

文章/答案/技术大牛

发布

1回答

python-3.x、pdf、pdfplumber

我正在尝试使用PDFplumber从pdf文件中提取文本 import pdfplumberfor ps in pdf.pages: print(ps.extract_text(y_tolerance

浏览 61提问于2021-05-02得票数 0

1回答

是否可以返回函数中具有泛型类型的列表？

python、python-3.x、generic-type-argument

有以下功能：from pdfplumber.page import Page with pdfplumber.open(path) as pdf: for page in pdf.pages:= None and keyword in pageText: return

浏览 7提问于2021-06-24得票数 1

回答已采纳

1回答

使用python从PDF文件中提取相关文本

python、pandas、dataframe、tesseract

使用python只从整个PDF文件中提取相关文本，并将输出数据存储到Excel的特定列中。我试图解决它，但不能提取特定的文本值。下面是需要提取的示例输出的屏幕截图：我想提取excel.不同列中的发票号、订单号和总价值。到目前为止，我已经尝试过：pdf = pdfplumber.open('file.pdf') page = pdf.pages[0]

浏览 8提问于2020-09-30得票数 0

1回答

如何阻止pdfplumber读取每一页的标题？

python、python-3.x、pdfplumber

我希望pdfplumber从用户给出的随机pdf中提取文本。问题是pdfplumber还会从每个页面中提取标题文本或标题。如何编写pdfplumber程序，使其不读取页眉(标题)和页码(或页脚，如果可能)？下面是代码： import pdfplumber for pdf_page in pdf.pages: one

浏览 157提问于2021-04-01得票数 1

回答已采纳

1回答

当正则表达式以字符串类型读取数字时，我如何找到模式？

python、pdf、re

当我用RE编写模式时，它什么也不返回。输入： import requestsimport pandas as pd if decl.search(line): print(line) 从pdf文件中搜索的文本</e

浏览 13提问于2021-07-18得票数 0

回答已采纳

2回答

Python 2:返回一些PyPdf的空结果

python、pdf、pypdf2

嗨，我有一些pdf的，我需要他们的文字信息被提取。pdfReader = PyPDF2.PdfFileReader(pdfFileObj)pageObj.extractText() 但我得到的是一个特定的可能的问题是什么？谢谢你。

浏览 13提问于2019-08-19得票数 0

2回答

如何使用索引从PDF中提取所有文本

python、pdf、pypdf2

我对Python和一般的编码都是新手。我正在尝试创建一个程序，它将OCR一个目录的PDF，然后提取文本，以便我以后可以挑选出具体的东西。但是，我在让pdfPlumber从所有页面中提取所有文本时遇到了问题。你可以从开始到结束建立索引，但是如果结束是未知的，它就会中断，因为索引超出了范围。import ocrmypdfimport requestsimport re impor

浏览 35提问于2020-07-09得票数 2

回答已采纳

1回答

如何用PDf管道工只提取主文本而忽略图像文本和表格？

python、pdf、text-parsing、text-extraction、pdfplumber

试图解析任何未扫描的pdf和只提取文本，没有表格和他们的评论或图片和他们的评论。只有主文本的pdf，如果这样的文本存在。曾经做过水管工。 for pd

浏览 16提问于2022-10-26得票数 0

1回答

尝试用PDFPlumber结果在FileNotFoundError中打开PDF

python、pdf、text

我有一个由VBA调用的python脚本，它循环遍历excel工作簿中的任何文件夹，然后返回该文件夹中的PDF (因为只有一个)，然后打开它并返回文本；然而，我得到以下错误，我不知道我做错了什么： with pdfplumber.open(pdf_file) as pdf: File "C:\ProgramData\Anaconda3\lib\site-packa

浏览 16提问于2022-02-01得票数 0

1回答

如何从pdf文件中提取带有python的无线电按钮/复选框信息？

python、parsing、pdf、pypdf2、pdfplumber

我想从pdf文档中获得单选按钮/复选框信息--我查看了pdfplumber和pypdf2 --但是无法找到这个模块的解决方案。我可以使用以下代码解析文本--但是对于单选按钮，我只得到文本--但是没有选择哪个按钮(或复选框)的信息。import pdfplumberimport sys path = os.path.abspath(os.path.dirname

浏览 4提问于2022-09-08得票数 1

2回答

从不带垂直线的PDF表格中提取表格

pdf、tabula、python-camelot

我想从如下图所示的PDF文件中提取表格： ? PDF文件包含文本，并且不是扫描的图像。我一直在尝试使用Camelot，但没有成功。我使用了row_tol，但是因为行的高度不同，所以它并不适用于所有行。有没有一种方法可以使用lattice方法，但要考虑垂直线的列分隔符？或者，是否有其他方法可以解压该表？

浏览 40提问于2019-10-04得票数 1

3回答

是否有可能将两个列表的输出存储在列表中的独立值中？

python、list

.*')))然后提取这些pdfs的文本值： with pdfplumber.open(file) astext = page.extract_text() print(line) 我的输出是准确的，但不在有两个值的列表中。如何将列

浏览 0提问于2020-11-26得票数 0

回答已采纳

1回答

如何提取文本和表格

python、pdf、pdfplumber

使用pdf管道工库，您可以提取PDF页面的文本，也可以从pdf页面中提取表格。我希望产出如下： "table name", "text 2"]但这会将文本和表提取为文本。我

浏览 6提问于2022-03-25得票数 2

回答已采纳

1回答

使用python从pdfs中提取特定文本

pymupdf、pdfplumber、grobid

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从检查到调查与历史和调查作为一个excel文件中的列和相应的数据行。python regex不能满足这个条件，因为每种pdf格式都是不同的

浏览 20提问于2022-06-30得票数 0

1回答

Pythonpdf管道工:提取pdf，并将数据分割成2列

python、python-3.x、pdf

Line no 10 Line no NLine no. 1....我尝试了使用表设置的extract_table()库中的pdfplumber实用程序，但是它不

浏览 1提问于2020-08-25得票数 3

3回答

货币类型字段返回美元，但区域设置为英国(Windows 7)

advantage-database-server

在装有Advantage Data Architect版本9.10.0.11的Windows 7计算机上，货币类型数据以美元而不是英镑的形式返回。有时，它会突然切换到磅，而不需要我更改任何设置。其他所有内容都会正确返回英镑(区域设置为UK，使用as作为货币符号)。如果我使用money数据类型字段运行任何报告，我不能确定它是否准确。不，我不能自己更改字段类型和处理货币符

浏览 3提问于2010-06-10得票数 0

2回答

管道工占用内存(与大型pdf文件崩溃)

python、garbage-collection、pdfplumber

使用pdf管道工从大型pdf文件中提取文本会导致崩溃。with pdfplumber.open("data/my.pdf") as pdf: **do something**

浏览 20提问于2021-12-22得票数 0

回答已采纳

1回答

用于将通过循环提取的文本追加到Python中的列表的多重处理

python、multithreading、python-multiprocessing、concurrent.futures

作为一名Python (和编程)新手，我正在尝试将数千个PDF的文本提取到一个文件(或列表，如果更好)。这些数据将用于稍后的内容分析。我创建了一个工作函数，可以遍历目录中的所有PDF，使用pdfplumber提取文本并将其附加到列表中。现在，我想使用多进程来加速一个非常冗长的过程。下面是在我的函数中使用concurrent.futures的一些教程中的代码： import pdfplumb

浏览 8提问于2020-10-27得票数 1

回答已采纳

1回答

水管工错过了原理图中所有表的第一列和最后一行。

python、pdfplumber

我是新来的水管工，我惊讶于它是如何从表格中提取文本的。它无法提取文档中每个表的第一列和最后一行。我试图调整table_settings变量中的几个配置参数，不幸的是，我没有能够获得更好的结果(在我的例子中，如果我使用"text“而不是”line“，原理图中的其余文本被视为一个表

浏览 13提问于2021-11-22得票数 0

回答已采纳

1回答

Tesseract OCR提取

python、tensorflow、python-imaging-library、ocr、tesseract

我是剪切图像的基础上的包围框。我面临的挑战是裁剪的图像太小，无法提取数据，而且影响了精度。img_pil = ImageOps.grayscale(img_pil)我在裁剪后的图像上运行超分辨率算法，以提高图像质量，但仍然不能达到很好的精度。# Read the desired model sr.setModel(model_name

浏览 9提问于2022-11-24得票数 0

点击加载更多