python中提取pdf文本框 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

提取pdf文件中指定字符串的位置。

、

我不熟悉pdf渲染系统或postscript，我想知道原则上是否可以提取pdf中字符串的位置。即：pdf标准支持这一点吗？

浏览 5提问于2022-10-18得票数 0

1回答

使用python读取pdf的文本框中的数据

、、、

我有一个包含文本框、单选按钮、复选框等的pdf文件。如何使用python从pdf中提取所有数据？当我尝试使用pdfminer或pypdf2时，我无法抓取文本框中的数据。请参阅附件中的图像。例如:当我使用pdfminer时，我可以删除"1)程序：“，但不能删除它的值(即"EPIC_AFCS_AB139_7APD")。

浏览 2提问于2017-12-01得票数 0

1回答

如何从python的pdf中提取高光和文本框内容？

、

我想使用python从PDF中提取高光、文本框和文本框颜色。我在安装poppler时遇到了麻烦，在相关的问题中已经提到了doc = fitz.open("example.pdf") page =

浏览 14提问于2022-05-19得票数 0

1回答

如何使用Python从PDF中的特定区域提取文本？

、、、

我正在尝试使用Python从PDF中提取文本，并且我已经成功地使用了PyPDF2，如下所示：pdfFileObj = open('path', 'rb')pageObj = pdfReader.getPage(0)这将从页面中提取所有文本，但我只想从页面左上角的3'x4‘矩形区域中提取文本。我

浏览 13提问于2017-08-21得票数 9

1回答

Azure机器学习无法将PDF作为web服务的输入

、

这些文档是PDF格式的。当我将这个实验部署为web服务时，它不允许我输入PDF。有没有一种方法可以将PDF输入到web服务？

浏览 0提问于2017-02-06得票数 1

1回答

在python中是否有一种方法只提取核心文本(没有框、页脚等)。从pdf里？

、、、、

我只想从一个“富”pdf文档中提取核心文本，这意味着它有很多我不感兴趣的表格、图表、框、页脚等等。我尝试使用一些常见的python包，如PyPDF2、pdfplumber或pdfreader.The，显然它们提取了pdf中所有的文本，包括上面列出的那些我不感兴趣的部分。file = PdfReader(file)text = page.extract_text() 这段代码将为我从第11页获得整个文本，包括页脚、框、表格中的文本和页面的编号

浏览 11提问于2022-11-07得票数 -1

回答已采纳

1回答

从pdf文件中读取图像

、、、、

我有一个要求，客户将上传一个pdf文件，其中包含图像/s。我必须读取那个pdf文件，从它们中提取图像，然后将图像保存到db和硬盘中。但我不知道如何使用Python/Django代码从pdf文件中提取图像。是否有从pdf文件中读取和提取图像的python库。提前谢谢。

浏览 2提问于2013-08-09得票数 0

回答已采纳

2回答

可以在Python中提取带有空格的pdf吗？

、、

在创建了一个使用java和pdfbox提取pdf的工具之后，我一直在尝试用Python提取pdf。虽然对于相同的pdf，Java实现是成功的，但我一直在努力在python中做同样的事情，因为pdfminer和pypdf和pypdf2都不能逐行提取带有空格的pdf。特别是，出于某种奇怪的原因，pdfminer pdf2txt将pdf拆分为3列，然后逐行读取。我得到的最接近的是使用的

浏览 10提问于2013-06-16得票数 4

1回答

如何在Python中将PDF中的字节转换为字符串？

、、

我尝试将从book_download_page = requests.get(link)获取的字节转换为字符串，然后从content = book_download_page.content转换为字符串。我试过的是， content = book_download_page.content.decode('utf-8') 我得到了错误， 'utf-8' codec can't decode byte 0xe2 in position 10: invalid continuation byte 编辑-您可以尝试this link进行下载谢谢!

浏览 21提问于2020-06-25得票数 0

1回答

如何提取PDF年度报告的叙述部分以进行文本分析？

报告以PDF格式提供。提前感谢！

浏览 0提问于2020-11-11得票数 1

3回答

从pdf文件中获取数据

、

我有一张pdf文件中的表格。有x，y，z列。我只想要x列。有可能使用python吗？如果是，怎么做？然后我想要画x和y。我该怎么做(使用表中的数据)

浏览 23提问于2022-04-14得票数 -1

1回答

使用python从pdfs中提取特定文本

、、

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从检查到调查与历史和调查作为一个excel文件中的列和相应的数据行。python regex不能满足这个条件，因为每种pdf格式都是不同的，我们需要来自不同pdfs

浏览 20提问于2022-06-30得票数 0

1回答

同步检测和分析多页文档PDF中的文本

、、、

我是否需要对图像进行预处理，以获得更好的亚马逊提取结果？

浏览 2提问于2020-06-30得票数 0

2回答

索引安全pdf没有选择副本

、、、、

我需要能够索引和搜索“安全的”PDF。这些PDF有"No Copy“属性被选中并被锁定。这意味着没有用户名和密码就无法复制PDF的内容。IFilter尊重这些设置，不允许对PDF进行索引。我正在寻找一种使用aspx.net在我的服务器上索引和搜索这些PDF的方法。似乎我被以下一项困住了：将全部内容复制

浏览 5提问于2012-10-02得票数 1

回答已采纳

1回答

利用深度学习从PDF中提取短语

、

我想教一个人工智能从PDF中提取特定的短语。例如，产品名称在文档中的某个位置，AI必须找到并提取它。我的问题是，是否最好将PDF作为图像或提取的字符串提供，因为文档是粗略构造的。

浏览 2提问于2019-11-25得票数 1

回答已采纳

1回答

如何在纯Python中从PDF中提取图像？

、、、、

我正在开发一个服务，其中我现在需要从PDF文件中提取图像。在Linux命令行中，我可以使用之类的提取图像因为我使用的是Python Flask框架，并且我想在Heroku上运行我的服务，所以我想使用纯Python (或者可以在Flask系统中运行在Heroku上的任何库)来提取图像。有人知道如何用纯Python从pdf</

浏览 4提问于2014-11-28得票数 4

1回答

我如何阅读python的pdf？

、、、

我如何在python中读取pdf ?我知道一种将它转换为文本的方法，但是我想直接从pdf中读取内容。有人能解释一下python中哪个模块最适合pdf提取吗？

浏览 2提问于2017-08-21得票数 45

1回答

使用Python从Adobe签名(e签名)Acroform中提取表单字段数据

、、、

我正在尝试从电子签名的PDF表单中提取字段名和相应的字段值，我将其上传到Adobe 并获得了电子签名。参见链接：。在上传PDF表单之前，它是Acroform，即包含表单字段的可编辑PDF。从Acroform中，我能够使用PDFTK提取字段名和字段值。此外，在Adobe上签署此表单之后，尽管PDF不再是可编辑的(字段被锁定)，我仍然可以使用PDFTK从PDF文档中提取数据。但是，在使用Adobe 请求和获取签名之后，我很难使用PDFT

浏览 5提问于2021-06-07得票数 0

3回答

如何从PDF文件中提取文本和文本坐标？

、、

我想要提取所有的文本框和文本框坐标从一个PDFMiner文件。489, 41, "Signature"630, 202, "a_g_i_r"

浏览 6提问于2014-04-07得票数 40

回答已采纳

1回答

我无法读取.docx文件，这是我使用soffice命令转换pdf后得到的

、、、、

我正在尝试使用soffice将pdf转换为docx。它将其转换为.docx，但它提供的文本框我无法使用python提供的docx api读取。有没有更好的方法来读取文件，或者有更好的方法将pdf转换成docx，这样我就不会得到文本框了？soffice --infilter="writer_pdf_import" --convert-to docx "convert_this.pdf"

浏览 29提问于2019-12-16得票数 1

点击加载更多

提取pdf文件中指定字符串的位置。

使用python读取pdf的文本框中的数据

如何从python的pdf中提取高光和文本框内容？

如何使用Python从PDF中的特定区域提取文本？

Azure机器学习无法将PDF作为web服务的输入

在python中是否有一种方法只提取核心文本(没有框、页脚等)。从pdf里？

从pdf文件中读取图像

可以在Python中提取带有空格的pdf吗？

如何在Python中将PDF中的字节转换为字符串？

如何提取PDF年度报告的叙述部分以进行文本分析？

从pdf文件中获取数据

使用python从pdfs中提取特定文本

同步检测和分析多页文档PDF中的文本

索引安全pdf没有选择副本

利用深度学习从PDF中提取短语

如何在纯Python中从PDF中提取图像？

我如何阅读python的pdf？

使用Python从Adobe签名(e签名)Acroform中提取表单字段数据

如何从PDF文件中提取文本和文本坐标？

我无法读取.docx文件，这是我使用soffice命令转换pdf后得到的

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐