使用pdfplumber查找PDF中的文本，返回页码，然后返回表格

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我下载了42个PDF，每个PDF的格式都是相似的。每个都有不同的表，其中一个被标记为“校园报告的事件”。该特定表格位于每个PDF中的不同页面上。我想写一个函数，它将搜索包含“校园事件报告”的页面，并抓取该表，以便我可以将其放入数据帧中。我想我可以使用PDFPlumber搜索字符串"Campus Reported Incidents“并返回</em

浏览 88提问于2019-05-02得票数 5

1回答

pdfplumber可以为我扫描的pdf提取表格吗？

、、、、

(我知道pdfplumber主要是针对计算机生成的PDF。然而，在我花几天时间从扫描的PDF文件中手动输入数据之前，我想我应该问问pdfplumber是否能以某种方式帮助我。)我的问题是：示例：现在，我正在尝试从扫描的PDF中提取表格(示例中右下角的表格</em

浏览 9提问于2021-11-18得票数 0

1回答

尝试用PDFPlumber结果在FileNotFoundError中打开PDF

、、

我有一个由VBA调用的python脚本，它循环遍历excel工作簿中的任何文件夹，然后返回该文件夹中的PDF (因为只有一个)，然后打开它并返回文本；然而，我得到以下错误，我不知道我做错了什么： with pdfplumber.open(pdf_file) as <em

浏览 16提问于2022-02-01得票数 0

1回答

如何用PDf管道工只提取主文本而忽略图像文本和表格？

、、、、

试图解析任何未扫描的pdf和只提取文本，没有表格和他们的评论或图片和他们的评论。只有主文本的pdf，如果这样的文本存在。曾经做过水管工。 with pdfplumber.open("somePDFname.

浏览 16提问于2022-10-26得票数 0

2回答

如何使用PDFplumber只提取pdf文件中没有表格的文本？

、、、

我想使用NLP模块处理一些pdf文件，然后从所有现有的表中清除这些文件。这是使用pdfplumber提取表的代码pdf = pdfplumber.open("file.pdf")table=page.extract_table() 但是我想反转操作，只提取文本

浏览 4提问于2021-02-21得票数 1

1回答

水管工错过了原理图中所有表的第一列和最后一行。

、

我是新来的水管工，我惊讶于它是如何从表格中提取文本的。它无法提取文档中每个表的第一列和最后一行。我试图调整table_settings变量中的几个配置参数，不幸的是，我没有能够获得更好的结果(在我的例子中，如果我使用

浏览 13提问于2021-11-22得票数 0

回答已采纳

2回答

如何使用索引从PDF中提取所有文本

、、

我对Python和一般的编码都是新手。我正在尝试创建一个程序，它将OCR一个目录的PDF，然后提取文本，以便我以后可以挑选出具体的东西。但是，我在让pdfPlumber从所有页面中提取所有文本时遇到了问题。你可以从开始到结束建立索引，但是如果结束是未知的，它就会中断，因为索引超出了范围。'):

浏览 35提问于2020-07-09得票数 2

回答已采纳

1回答

基于Python中的头文本提取PDF页面

、、、、

我有一份“亚洲涂料有限公司”的年度报告。我想提取“综合资产负债表页”(这是PDF中的216页)。我使用了PyPDF并创建了一个函数，该函数提取所有文本，搜索关键术语“综合资产负债表”，并返回找到它的页码。但是，我希望我的功能能够识别包含‘综合资产负债表’这个词的页面为一个头和所需的表(也就是这个pdf中的216页)。这是我<em

浏览 10提问于2022-01-21得票数 2

1回答

在python中是否有一种方法只提取核心文本(没有框、页脚等)。从pdf里？

、、、、

我只想从一个“富”pdf文档中提取核心文本，这意味着它有很多我不感兴趣的表格、图表、框、页脚等等。我尝试使用一些常见的python包，如PyPDF2、pdfplumber或pdfreader.The，显然它们提取了pdf中所有的文本，包括上面列出的那些我不感兴趣的部分。PdfReaderpage = file.pages[10] text = pag

浏览 11提问于2022-11-07得票数 -1

回答已采纳

2回答

我正在尝试用python包pdfplumber从PDF文档中提取一个表。该表有四列和多行。第一行是标题，第二行只有一个合并的单元格，然后值被正常保存(例如) pdfplumber能够检索表格，但如果有四列，它会生成6列，并根据列保存值。Table as shown in PDF document ? 我尝试使用不同的表格设置，包括“垂直策略”：“线”，但这产生了相同的结果。# Python 2.

浏览 47提问于2019-10-09得票数 0

1回答

pdfplumber extract_text函数也可以从表格中提取文本。只想提取表外的文本

、、

我有一个包含文本和表格的pdf。我想将它们都提取出来，但是当我使用extract_text函数时，它也会提取表中的内容。我只想提取表外的文本，并且可以使用extract_tables函数提取该表。我测试了一个只包含表格的pdf，但仍然使用extract_tables函数提取我想要提取的表格内容。

浏览 232提问于2021-10-01得票数 0

1回答

如何提取文本和表格

、、

使用pdf管道工库，您可以提取PDF页面的文本，也可以从pdf页面中提取表格。我希望产出如下： "table name", "text 2"] 在本例中，您可以从pdfplumber

浏览 6提问于2022-03-25得票数 2

回答已采纳

1回答

动态生成PDF

、

我是在动态生成的pdf文件，我有PDF模板，我创建了类似的动态使用ITextSharp，我创建的pdf和返回的base64字符串到移动应用程序，然后将base64转换为pdf。模板如下所示页脚的免责声明和页码将出现在PDF文件的所有页面中，并且页码也是动态的。我已经成功地创建了它，它不是完

浏览 0提问于2017-10-06得票数 0

1回答

当正则表达式以字符串类型读取数字时，我如何找到模式？

、、

我正在尝试编码一个pdf阅读器脚本。当我用RE编写模式时，它什么也不返回。输入： import requestsimport pandas as pd page = pdf.pages[0] decl = re.compile(r'

浏览 13提问于2021-07-18得票数 0

回答已采纳

2回答

没有用tabula和camelot检测到的表

、、、、

我试图从PDF中提取我认为格式不正确的表。这些PDF中的表有一种表格格式，但没有适当地用实际边框括起来。为单个页面输入0，对所有页面输入1，对于特定页面输入2:2输入页码: 25没有通过表格在此页面上找到表。当我使用ca

浏览 4提问于2021-11-22得票数 1

2回答

如何从pdfplumber解压后删除英文单词之间的空格

、、

我已经提取文本从pdf (使用pdfplumber)到txt，但有一些空格之间的文字不在PDF文件中。我曾尝试使用"Previous_word“+ "current_word”组合来nltk查找单词，并检查NLTK.words中是否存在这些单词，以找出单词之间有额外空格的位置，但效果不佳。

浏览 11提问于2021-03-15得票数 0

1回答

如何使用iText从书签创建PDF文件中的目录页？

、、

我需要在PDF中创建一个到表格内容的页面。我将创建PDF阅读书签。对于iText，我使用：使用此PDF进行测试： [{Action = GoTo, Named =没有页码。我想展示这一点：

浏览 4提问于2016-08-18得票数 1

回答已采纳

2回答

用Python提取PDF文件的文本和表

、、、、

我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本，但它们不足以提取表。) 第二，如果页面中存在表，我如何提取表pdfplumber可以使用extract_text()和extract_table

浏览 8提问于2021-09-21得票数 1

1回答

使用python从pdfs中提取特定文本

、、

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从检查到调查与历史和调查作为一个excel文件中的列和相应的数据行。pyt

浏览 20提问于2022-06-30得票数 0

1回答

如何解析Foundry中原始数据集中的pdf文件？

、、、、

我有一个原始数据集，其中包含多个PDF文件。我希望能够获得一个Foundry数据集，该数据集在一列中包含这些pdfs的文本，在另一列中包含文档的名称。doc_name | text |xyz.pdf | asdf |我的<

浏览 9提问于2022-11-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云