PyPDF2 :提取目录/大纲及其页码

PyPDF2是一个Python库，用于处理PDF文件。它提供了一系列功能，包括提取目录/大纲及其页码。

目录/大纲是PDF文档中的一个结构化元素，它通常包含了文档的章节、子章节和页码等信息。通过提取目录/大纲及其页码，可以方便地导航和定位到PDF文档中的特定部分。

PyPDF2可以通过以下步骤来提取目录/大纲及其页码：

导入PyPDF2库：

import PyPDF2

打开PDF文件：

pdf_file = open('example.pdf', 'rb')

这里的'example.pdf'是要处理的PDF文件的路径。

创建一个PdfFileReader对象：

pdf_reader = PyPDF2.PdfFileReader(pdf_file)

outlines = pdf_reader.getOutlines()

这将返回一个包含目录/大纲信息的列表。

for outline in outlines:
    title = outline.title
    page_number = outline.page
    print("标题: ", title)
    print("页码: ", page_number)

这里的title是目录/大纲的标题，page_number是目录/大纲所在页的页码。

通过以上步骤，我们可以提取PDF文档中的目录/大纲及其页码。

腾讯云提供了一系列与PDF处理相关的产品和服务，例如腾讯云文档转换（https://cloud.tencent.com/product/tmt）和腾讯云文档识别（https://cloud.tencent.com/product/ocr）等。这些产品可以帮助用户在云端快速、高效地处理PDF文件，并提供了丰富的API和SDK供开发者使用。

页面内容是否对你有帮助？

有帮助

没帮助

PyPDF2 :提取目录/大纲及其页码

、、、

我正在尝试提取目录/大纲从PDF和他们的页码使用Python (PyPDF2)，我知道reader.outlines，但它没有返回正确的页码。

浏览 90提问于2021-07-16得票数 1

回答已采纳

1回答

从PyPDF2 getOutlines()解析页码

、、

我希望从包含大纲/目录数据的文件中提取大纲/目录数据，本质上是为了了解给定页面对应于文档的哪个部分。我不知道如何获得我期望的Destination对象，也不知道如何从我得到的indirectObjects中提取有意义的页码。最终目标是，给定大纲的页码，能够将该页码传递给getPage()，然后调用extractText()。任何指导都非常感谢。谢谢!

浏览 61提问于2019-09-12得票数 2

2回答

使用Python识别书签

、、

我正在查看PyPDF2，以便从pdf上读取书签。谢谢

浏览 0提问于2015-08-12得票数 1

2回答

合并PDF，同时保留自定义页码(也称为页签)和书签

、、、

我正在尝试自动合并几个PDF文件，并有两个要求: a)现有的书签和b)页面标签(自定义页码)需要保留。我猜，在搜索了很多次之后，没有直接的方法来做我想做的事情。如果我错了，我希望有人能指出这个简单的解决方案。一些示例代码：from PyPDF2 import PdfFileWriter, PdfFileMerger, PdfFileReader

浏览 86提问于2020-05-12得票数 1

回答已采纳

1回答

Word VBA:在文档正文中查找、复制和粘贴关键短语到页面顶部的书签位置。

、

我需要找到一个解决方案来创建一个“报表摘要”子程序，该子子程序可以在word文档中找到各种结果数据的最上面一行，然后将它们插入页面顶部的书签位置下。。每个结果作为一个共同的值能够找到，扩展到选择整行，然后复制。我正在苦苦挣扎的地方是找到所有符合标准的短语，并将它们粘贴到页面顶部的书签位置。我可以让潜艇复制短语的第一个实例，但不是所有实例。对于上下文，我使用的关键短语是“：”，因为所有的结果都包含这个值。我尝试过的另一种方法导致子创建了一个无穷无尽的循环来粘贴短语的第一个实例，直到Word崩溃。我假设我需要编写一个脚本来找到这个短语，然后，一旦复制和粘贴，转到下一个实例，并在它到达文档的末尾时

浏览 6提问于2022-01-27得票数 0

回答已采纳

1回答

提取目录条目及其链接的页码

、、、、

我有，它包含一个目录，其中每个条目都链接到文件中的一个页面。我应该如何用Python或Java (或其他一些语言)编程来提取以下形式的目录：entry2 PageNumberEntry2LinkedToThread-Safe Functions 2 (如果它们可以根据目录的结构以某种树数据结构来提取，那就更好了，但如果不可能，可以跳过这一步。)比如Python语言中的PDFMiner或pypdf2，IPython或J

浏览 6提问于2015-04-09得票数 1

1回答

使用PyPDF2添加的书签页数

、

我使用PdfFileMerger从PyPDF2添加了pdf文件，并在每个PdfFileMerger.addbookmark文件的开头添加了书签。当我用PdfFileReader打开新文件并提取书签所在的页面时，我会得到页码-1。= PdfFileReader(file, "rb") pdf.getDestinationPageNumber(i) 为什么新书签的页码是

浏览 10提问于2021-12-17得票数 0

1回答

Windows从PDF文件本身的信息自动命名

、、、

在我的例子中，它是我试图从PDF中提取来重命名文件( "ISO-4024-4301“)的一个绘图名称。非常感谢。

浏览 0提问于2020-03-13得票数 0

回答已采纳

1回答

如何使用PyPDF2在pdf中插入空白页

、、

问题:我有一个页码数组，空白页需要插入或合并到原始pdf中。例如) 1，3，5，8，10。我需要这些页面是空白的，这样原始文档的页码就会增加。使用PyPDF2，我尝试使用insertBlankPage()，addPage()，addBlankPage目录中的单个空白页pdf合并()。我遇到的问题是空白页面覆盖了原始页面。看起来空白页是写在现有页面的顶部，而不是插入在页码上。如何在数组中列出的页码处插入空白页？下面是代码。页面的输出数组不需要是字符串；它被转换为字符串以引入另一个程序。如

浏览 255提问于2021-01-21得票数 0

2回答

如何从PDF或Word中提取图像，以及图像周围的文本？

、、、、

我发现有一些库可以从PDF或word中提取图像，比如docx2txt和PDF图像。但是我如何才能获得图片周围的内容(比如图片下面可能有一个标题)？或者获取每个图像的页码？其他一些工具，如PyPDF2和minecart，可以逐页提取图像。但是，我不能成功地运行这些代码。有没有好的方法来获取图像的一些信息？(从docx2txt或pdfimages获得的图像，或另一种提取带有信息的图像的方法)

浏览 18提问于2019-04-09得票数 0

1回答

如何从pdf中提取所有文本？

、、

我使用PYPDF2库从PDF中提取文本，但在执行循环时遇到了问题。我想使用使用.GetNumPages()获得的页码，并在reader.pag

浏览 2提问于2022-05-06得票数 1

回答已采纳

1回答

获取PDF文档大纲

、、

现在我需要一种方法来获取文档大纲(目录)，我找到了下面的函数CGPDFDocumentGetCatalog，它似乎是相关的，但返回的信息是一个不透明的字典，我不知道其中的关键字。我希望大纲在树中，每个条目的页码。我对任何可以在iPad上使用的答案都感兴趣，即使它使用了其他库。

浏览 5提问于2010-08-22得票数 1

回答已采纳

2回答

根据内容删除特定的PDF页面

我有超过50,000 PDF文件，需要分配到客户帐户。但是，每个PDF包含的页面我不希望客户看到(内部公司的东西)，所以我希望能够删除特定的网页，根据其内容(“仅供办公室使用”出现在页面上)，并将PDF作为一个新的文件。我对脚本方面很满意，我只需要知道什么样的软件能够完成这样的任务。

浏览 0提问于2016-10-25得票数 1

1回答

使用Java从PDF文件中提取大纲(或书签)

、、、

我正在使用从PDF文件中提取大纲(书签)信息，这在同一站点中也有解释。然而，我有问题不提取，而是生成合格的网址(foo.pdf#page=22777&zoom=2,2,777)打开的PDF在这些书签。有时PDFBox找不到放置书签的页面(即页码、左坐标或上坐标错误)。

浏览 3提问于2010-08-12得票数 0

回答已采纳

1回答

使用PyPDF2从目录中的PDF文件提取文本

、、、、

我想提取文本从一个目录的pdf文件到另一个目录的文本文件(转换PDF=> .txt)与PyPDF2 我已经阅读了这里的信息：https://automatetheboringstuff.com/chapter13/ 但是我没有找到批量转换文件的信息 import PyPDF2pdfReader = PyPDF2.PdfFileR

浏览 15提问于2019-04-12得票数 0

1回答