如何从pdf中提取视区，并根据视区修改注释的边框？

从pdf中提取视区，并根据视区修改注释的边框，可以通过以下步骤实现：

首先，需要使用一个pdf解析库，如PyPDF2或pdfminer等，将pdf文件解析为可操作的数据结构。
接下来，可以使用图像处理库，如OpenCV或PIL等，对pdf中的页面进行图像处理，提取出视区。
一旦获得了视区的位置和大小信息，可以使用相应的pdf编辑库，如PyPDF2或reportlab等，打开pdf文件并定位到相应的页面。
在定位到的页面上，可以使用pdf编辑库提供的功能，修改注释的边框。具体的修改方式可以根据需求而定，例如调整边框的颜色、粗细、样式等。
最后，保存修改后的pdf文件。

需要注意的是，不同的pdf解析库和pdf编辑库可能提供不同的功能和接口，具体的实现方式可能会有所差异。在实际操作中，可以根据具体的需求选择合适的库和工具。

推荐的腾讯云相关产品：腾讯文档（https://cloud.tencent.com/product/tcd）可以提供在线文档编辑和协作的功能，可以在其中进行pdf的视区提取和注释边框修改等操作。

解析python中的PDF形状数据

、、、

我试图把一个脚本，以修复PDF大量的PDF已经从Autocad通过他们的DWG2PDF打印驱动程序导出。当使用此驱动程序时，所有SHX字体都被呈现为形状数据，而不是文本数据，但是，它们确实有一个注释插入到PDF中，在预期的位置使用预期的文本。到目前为止，在我的脚本中，我已经让它在PDF中运行，并在每个部分的顶部插入隐藏的文本，文本压缩到评论的大小，这给了我90%的方法，给了我一个可搜索的文档。遗憾的是，注释区域的大小是相对的(基于整数的)，这使得很难准确地确定短文本的方向，导致文本周围大小不均匀的框。我想要做的是解析PDF中的形状数据，在注释范围内收集任何信息，然后确定一个更小、更精确

浏览 4提问于2022-02-02得票数 2

回答已采纳

3回答

使用PdfMiner和PyPDF2合并列提取文本

、、

我尝试使用pdfMiner解析pdf文件文本，但提取的文本被合并。我使用的是以下链接中的pdf文件。我擅长处理任何类型的输出(文件/字符串)。下面的代码将提取的文本作为字符串返回，但由于某些原因，列被合并。 from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfinterp import PDFResourceManager, process_pdf import StringIO def convert_pdf(filename): r

浏览 0提问于2013-04-01得票数 8

1回答

读取python中所有类型的文件

、、、、

我试图从python(.pdf，.doc，.docx)中的不同类型的文件中提取信息并转换为.txt，但在处理不同的文件时，我会在不需要的时候获得空间和换行符，以及许多其他问题。我已经尝试了PyPDF2和PDF manager.Please建议我一些东西，我可以用它从文件中提取信息。编辑目前正在寻找可以帮助我从.pdf文件中提取准确文本的东西。我已经尝试了PyPDF，PDFMiner和PDF Manager，我在所有的PDF中都遇到了一些问题。

浏览 3提问于2017-05-25得票数 2

2回答

PyPDF2的可维护替代方案

、、

我使用库从pdf文档中提取文本、图像、页面宽度和高度、注释和其他属性。然而，这个库已经有了很多bug和问题，而且已经存在很长时间了。(编辑:再次维护PyPDF2 ) 是否有一个更生动的叉子正在被维护和发展？有什么好的选择吗？据我所知，reportlab更适合创建全新的pdf格式(或者我只是对reportlab不够有经验)。

浏览 9提问于2020-07-31得票数 14

回答已采纳

2回答

Python & PDF解析:有任何现代的、强大的、维护良好的开源库吗？

、、、、

我正在寻找维护良好和文档齐全的Python强大PDF解析库(主要用于从具有不同/不可预测结构的各种类型的PDF中提取和解析数据，包括借助可靠和强大的OCR)。目前，我知道以下主要项目： PDFMiner：https://github.com/euske/pdfminer (最后一次提交是11天前) PDFMiner.six：https://github.com/pdfminer/pdfminer.six (最后一次提交是3天前--似乎是维护最活跃的项目) 在我看来，PDFMiner API使用起来有点过于复杂了-- 这里有一个很好的例子。 PyPDF2：https://github.com/

浏览 0提问于2019-11-14得票数 4

回答已采纳

11回答

如何在Python 3.7中从pdf中提取文本

、、、、

我正在尝试使用Python从PDF文件中提取文本。我的主要目标是试图创建一个程序，读取银行对账单，并提取其文本，以更新excel文件，以方便地记录每月的支出。现在我只专注于从pdf文件中提取文本，但我不知道如何做到这一点。当前将PDF文件中的文本提取为字符串的最佳和最简单的方法是什么？现在最好使用的库是什么，我该怎么做？我曾尝试使用PyPDF2，但每次尝试使用extractText()从任何页面提取文本时，它都返回空字符串。我尝试过安装textract，但是我得到了错误，因为我想我需要更多的库。 import PyPDF2 pdfFileObj = open("January2

浏览 203提问于2019-04-20得票数 19

回答已采纳

2回答

如何使用Python获取PDF文件的最后一行位置？

、

我是新手，使用Python，ReportLab和PyPDF2模块创建PDF文件。请帮我找出PDF文件的最后一行位置。以下是对我的问题的解释。例如, 我有一个PDF文件，其中写了10行。现在我想在同一个PDF文件中添加另一个文本。为此，我想知道最后一行的位置，这样我就可以从该行的下面开始另一个文本。下面是我从PDF文件中提取数据的代码示例。 import tkinter from tkinter import * from reportlab.pdfgen import canvas from reportlab.lib.pagesizes import A4 from PyPDF2 imp

浏览 3提问于2018-05-24得票数 0

1回答

如何从PDF转换为TXT而没有意外的换行符？

、、、、

我正在尝试转换一个非常干净的PDF文件到txt文件使用python。我试过使用pyPDF2和PDFMiner，它们在文本识别方面都工作得很好。然而，由于在PDF中的行是换行的，提取的.txt文件在末尾有意外的换行符:例如，第1行："is an account of the Elder /n Days，“。在"Elder“和"days”之间不应该有换行符。 PDF文件：当用Acrobat编辑时，可以清楚地看到PDF中的原始文本不包含硬换行符，并且可以编辑为段落而不是单行。我尝试过的代码(改编自此处的答案：) import io as io fr

浏览 8提问于2021-05-26得票数 0

1回答

如何从pdf中提取具有缩进功能的文本？

、、

我想从pdf文件中提取文本。但是，当我使用下面的代码进行提取时，返回的文本类似于： section text text text text text text text text text text text text text text text text 但是我想让这个部分使用正常的缩进： Section text text text text text text text text text text text text text text text text 遵循示例： import io from pdfminer.converter impor

浏览 15提问于2019-09-18得票数 2

1回答

如何从PDF中提取文本片段及其在Python中的坐标？

、

给定一个以数字方式创建的PDF文件，我想提取带有坐标的文本。一个包围框将是很棒的，但锚+字体/字体大小也将工作。我创建了一个，这样就可以很容易地尝试/共享结果。我试过的 pdftotext pdftotext PDF-export-example.pdf -layout 给。它已经包含了文本，但是坐标不在那里。 PyPDF2 更糟糕的是，PyPDF2既没有坐标，也没有字体大小，在这种情况下甚至连ASCII的艺术都没有提供布局方面的线索： from PyPDF2 import PdfFileReader def text_extractor(path): with open(pa

浏览 7提问于2020-07-30得票数 5

回答已采纳

2回答

在repl中使用Python从PDF中提取文本

、、、

我正在尝试用python从PDF中读取数据，并且我尝试使用repl.it文件，只是因为它更容易测试不同的库。我已经尝试过PyPDF2和PyPDF4，它们都可以工作，但不提供任何空格。tika给了我一个服务器启动错误，pdfminer不工作，pdfminer3没有空格工作。pdftotext无法正确下载。我想知道是否有更清晰的文档来说明如何给我的pdfminer3留出空格，或者是否有更多的库可以尝试。

浏览 17提问于2019-10-12得票数 0

1回答

PyPDF2提取空文本

、

我使用PyPDF2从pdf中提取文本。我在google中找到的所有示例都类似于我的代码： import PyPDF2 reader = PyPDF2.PdfFileReader("test2.pdf") page = reader.getPage(0) text = page.extractText() print(text.encode("utf-8")) 但是，我的控制台中有空文本： b'‘ 这个代码我测试了不同的pdf和所有pdf都是空的 UPD： # getDocumentInfo {'/Producer': '

浏览 0提问于2019-04-10得票数 10

1回答

使用Python仅从PDF中提取特定文本

、、、

需要使用python从具有不同PDF结构的发票PDF文件中提取特定的文本，并将输出数据存储到特定的excel列中。所有PDF文件都有不同的结构，但内容值相同。试图解决这个问题，但不能只提取特定的文本值。 PDF文件样本：需要提取发票ID，发行日期，主题，金额从整个PDF文件。到目前为止我使用的脚本： import PyPDF2 import re pdfFileObj = open('test.pdf','rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getP

浏览 8提问于2020-10-04得票数 1

回答已采纳

1回答

如何在PyPDF2中增加对空格的容忍度？

、、、

我正在寻找最简单的方法来转换PDF到Python中的纯文本。 PyPDF2看起来很简单，下面是我所拥有的： def test_pdf(filename): import PyPDF2 pdf = PyPDF2.PdfFileReader(open(filename, "rb")) for page in pdf.pages: print page.extractText() 但它给了我： InChapter5wepresentandevaluateourresults,togetherwiththetestenvironment. 我如何用PyPDF从PDF中提取单词？

浏览 0提问于2014-02-10得票数 0

2回答

在Python中从PDF文件中提取文本

、

我正在尝试从pdf文件中提取文本，这样我就可以将其自动化。例如，当使用PyPDF2时，它适用于我的简历，但不适用于我的工作文档。问题是，文本是这样的："Helloworldthisisthetext“。然后我尝试使用.join(“")，但这不起作用。我读到这是PyPDF2的一个众所周知的问题--这似乎取决于pdf的构建方式。有没有人知道另一种方法，如何从中提取文本，然后我可以用来进行进一步的步骤？提前谢谢你

浏览 0提问于2019-12-03得票数 0

2回答

如何使用Python从PDF中删除文本

、、、

我正在创建一个python脚本来编辑PDF中的文本。我有这个Python代码，它允许我将文本添加到PDF文件的特定位置。 import PyPDF2 import io from reportlab.pdfgen import canvas from reportlab.lib.pagesizes import letter import sys packet = io.BytesIO() # create a new PDF with Reportlab can = canvas.Canvas(packet, pagesize=letter) # Insert code into spe

浏览 0提问于2017-07-17得票数 5

回答已采纳

2回答

如何使用python从PDF文件中只提取特定的文本

、、、

如何使用python从PDF文件中提取一些特定的文本，并将输出数据存储到Excel的特定列中。这里是样例输入PDF文件(File.pdf) 链接到完整的PDF文件我们需要从整个文件中提取发票号、到期日和总到期的值。到目前为止我使用的脚本： from io import StringIO from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfdocument import PDFDocument from pdfminer.pd

浏览 2提问于2020-09-30得票数 0

1回答

Python textract以错误的顺序读取分页PDF

、

我正在使用Python的textract库来读取PDF文件并从中提取特定信息。到目前为止，它在99%的文件上都工作得很好。读取分页样式的PDF时出错。 ? 它打乱了顺序，并将前两页视为一页，因此它从最左边到最右边读一行。这是非常关键的，当我阅读整个PDF时，将拆分的页面作为单独的页面进行处理。 ? 下面是我的代码： text = textract.process("pdfs2/filename.pdf") text = text.decode('utf-8') 我不知道其他库是否也有同样的问题，但我尝试了PyPDF2，pdfminer，pdf2

浏览 20提问于2021-04-20得票数 0

3回答

OCG从PDF中提取几何元素(分层)

、、、、

所以我在这个问题上花了一个多月的时间。我正在寻找一种提取几何元素的方法(多边形、文本、圆弧等)。从一个矢量化PDF由文件的OCG(可选内容组)组织，这基本上是PDF层。使用PDFminer，我能够提取几何学(LTCurves、LTTextBoxes、LTLines等)；使用PyPDF2可以查看PDF中有多少OCG，尽管我无法访问与OCG相关的几何图形。我在网上看到和尝试过的一些恶意脚本可能能够解决这个问题，但没有效果。我甚至求助于在文本编辑器中打开原始的PDF数据，并半信半疑地删除其中的部分，看看我是否能够想出一些自定义的解析技术来完成这个任务，但同样没有效果。Adobe的PDF手册充其量是最

浏览 1提问于2018-08-23得票数 1

回答已采纳

1回答

Python读取pdf页面的一部分

、、、

我正在尝试读取一个pdf文件，其中每个页面被划分为3x3块的表单信息 A | B | C D | E | F G | H | I 每个条目被分解成多行。一个条目的简化示例是。但在其他8个插槽中也会有类似的条目。我看过pdfminer和pypdf2。我还没有发现pdfminer非常有用，但是pypdf2给了我一些相近的信息。 import PyPDF2 from StringIO import StringIO def getPDFContent(path): content = "" p = file(path, "rb") pdf =

浏览 2提问于2015-04-11得票数 1

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从pdf中提取视区，并根据视区修改注释的边框？

相关·内容

解析python中的PDF形状数据

使用PdfMiner和PyPDF2合并列提取文本

读取python中所有类型的文件

PyPDF2的可维护替代方案

Python & PDF解析:有任何现代的、强大的、维护良好的开源库吗？

如何在Python 3.7中从pdf中提取文本

如何使用Python获取PDF文件的最后一行位置？

如何从PDF转换为TXT而没有意外的换行符？

如何从pdf中提取具有缩进功能的文本？

如何从PDF中提取文本片段及其在Python中的坐标？

在repl中使用Python从PDF中提取文本

PyPDF2提取空文本

使用Python仅从PDF中提取特定文本

如何在PyPDF2中增加对空格的容忍度？

在Python中从PDF文件中提取文本

如何使用Python从PDF中删除文本

如何使用python从PDF文件中只提取特定的文本

Python textract以错误的顺序读取分页PDF

OCG从PDF中提取几何元素(分层)

Python读取pdf页面的一部分

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐