开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

PyPDF2 :提取目录/大纲及其页码

PyPDF2是一个Python库，用于处理PDF文件。它提供了一系列功能，包括提取目录/大纲及其页码。

目录/大纲是PDF文档中的一个结构化元素，它通常包含了文档的章节、子章节和页码等信息。通过提取目录/大纲及其页码，可以方便地导航和定位到PDF文档中的特定部分。

PyPDF2可以通过以下步骤来提取目录/大纲及其页码：

导入PyPDF2库：

import PyPDF2

打开PDF文件：

pdf_file = open('example.pdf', 'rb')

这里的'example.pdf'是要处理的PDF文件的路径。

创建一个PdfFileReader对象：

pdf_reader = PyPDF2.PdfFileReader(pdf_file)

获取PDF文档的目录/大纲：

outlines = pdf_reader.getOutlines()

这将返回一个包含目录/大纲信息的列表。

遍历目录/大纲列表并提取相关信息：

for outline in outlines:
    title = outline.title
    page_number = outline.page
    print("标题: ", title)
    print("页码: ", page_number)

这里的title是目录/大纲的标题，page_number是目录/大纲所在页的页码。

通过以上步骤，我们可以提取PDF文档中的目录/大纲及其页码。

腾讯云提供了一系列与PDF处理相关的产品和服务，例如腾讯云文档转换（https://cloud.tencent.com/product/tmt）和腾讯云文档识别（https://cloud.tencent.com/product/ocr）等。这些产品可以帮助用户在云端快速、高效地处理PDF文件，并提供了丰富的API和SDK供开发者使用。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python 深入浅出 – PyPDF2 处理 PDF 文件

实际应用中，可能会涉及处理 pdf 文件，PyPDF2 就是这样一个库，使用它可以轻松的处理 pdf 文件，它提供了读，割，合并，文件转换等多种操作。...文档地址：http://pythonhosted.org/PyPDF2/ PyPDF2 安装 PyCharm 安装：File -> Default Settings -> Project Interpreter...getDocumentInfo() 检索 PDF 文件的文档信息字典 getFields(tree = None,retval = None,fileObj= None) 如果此 PDF 包含交互式表单字段，则提取字段数据...retval= None) 检索文档中的指定目标 getNumPages() 计算此 PDF 文件中的页数 getOutlines(node = None,outline = None,) 检索文档中出现的文档大纲...getXmpMetadata() 从 PDF 文档根目录中检索 XMP 数据 isEncrypted 显示 PDF 文件是否加密的只读布尔属性 namedDestinations 访问该getNamedDestinations

1.6K3 0

python pypdf2

1、读写PDF from PyPDF2 import PdfFileReader, PdfFileWriter readFile = 'read.pdf' writeFile = 'write.pdf...= PdfFileWriter() pdfWriter.addPage(page) pdfWriter.write(open(writeFile, 'wb')) 2、合并分割PDF from PyPDF2...getDocumentInfo() 检索 PDF 文件的文档信息字典 getFields(tree = None,retval = None,fileObj= None) 如果此 PDF 包含交互式表单字段，则提取字段数据...检索文档中的指定目标 getNumPages() 计算此 PDF 文件中的页数 getOutlines(node = None,outline = None,) 检索文档中出现的文档大纲...getXmpMetadata() 从 PDF 文档根目录中检索 XMP 数据 isEncrypted 显示 PDF 文件是否加密的只读布尔属性 namedDestinations 访问该

5263 0

超实用！Office三件套批量转PDF以及PDF书签读写与加水印

另外，将完成 PDF 书签的写入和提取操作以及批量加水印的操作。关于水印我们可以加背景底图水印或悬浮文字水印。...本文目录：文章目录 office三件套转换为 PDF 格式将 Word 文档转换为 PDF 将 Excel 表格转换为 PDF 将 PowerPoint 幻灯片转换为 PDF 批量转换成PDF PDF...书签的提取与写入 PDF书签提取 PDF书签保存到文件从文件读取PDF书签数据向PDF写入书签数据给PDF加水印生成水印PDF文件 PyPDF2库批量加水印拷贝书签加水印同时复制书签 PyMuPDF...后面我们打算使用 PyPDF2 来批量加水印，比较尴尬的是用这个库只能重新创建 PDF 文件，导致书签丢失，所以我们需要事先能提取标签并写入才行。...PyPDF2库的安装如下： pip install PyPDF2 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com PDF书签提取

2.8K1 0

Python操作PDF全总结|处理PDF文档不得不知道的两个库

官方文档：https://pythonhosted.org/PyPDF2 安装： pip install pypdf2 pip install pdfplumber pdfplumber 提取PDF文字...: page01 = pdf.pages[0] #指定页码 text = page01.extract_text()#提取文本 print(text) ?...提取PDF表格「提取表格」 # 提取pdf表格 import pdfplumber with pdfplumber.open("D:\\pdffiles\\人力资源部岗位编制.pdf") as pdf...: page01 = pdf.pages[0] #指定页码 table1 = page01.extract_table()#提取单个表格 # table2 = page01.extract_tables...PyPDF2 PyPDF2 中有两个最常用的类：PdfFileReader和PdfFileWriter，分别用于读取 PDF 和写入 PDF。

3.4K2 0

PyPDF2模块

) 检索 PDF 文件的文档信息字典 getFields(tree = None,retval = None,fileObj= None) 如果此 PDF 包含交互式表单字段，则提取字段数据...检索文档中的指定目标 getNumPages() 计算此 PDF 文件中的页数 getOutlines(node = None,outline = None,) 检索文档中出现的文档大纲...getXmpMetadata() 从 PDF 文档根目录中检索 XMP 数据 isEncrypted 显示 PDF 文件是否加密的只读布尔属性 namedDestinations...访问该getNamedDestinations()函数的只读属性练习： from PyPDF2 import PdfFileReader,PdfFileWriter filer...createBlankPage(pdf=None,width=None,height=None) 返回一个新的空白页面 extractText() 找到所有文本绘图命令，按照他们在内容流中提供的顺序，并提取文本

6751 0

Python利用PyPDF2库获取PDF文件总页码实例

Python中可以利用PyPDF2库来获取该pdf文件的总页码，可以根据下面的方法一步步进行下去： 1、首先，要安装PyPDF2库，利用以下命令即可： pip install PyPDF2 2、接着...): """ 获取文件总页码 :param file_path: 文件路径 :return: """ reader = PdfFileReader(file_path) # 不解密可能会报错...2、程序代码代码运行环境：python3 需要安装PyPDF2包：pip install PyPDF2 #!.../usr/bin/env python3 # -*- coding: utf-8 -*- ''' 本脚本用来合并pdf文件，支持带一级子目录的每章内容分别放在不同的目录下，目录名为章节名最终生成的...以上这篇Python利用PyPDF2库获取PDF文件总页码实例就是小编分享给大家的全部内容了，希望能给大家一个参考。

1.8K1 0

用 Python 编辑 PDF 文件

本文将说明如何使用 PyPDF2 以及正则表达式操作 PDF 文件，并从中提取有关信息。...本文介绍的库名为 PyPDF2 ，其安装方法（注意，区分大小写） pip install PyPDF2 每个用于读取 PDF 文件的库都有自己的特点，PyPDF2 亦非万能，如果 PDF 文件太模糊、有特殊编码...读写 PDF 文件首先，引入 PyPDF2 ，如下所示： # 注意大小写 import PyPDF2 读文件打开一个 PDF 文件。...PdfFileWriter() # 用 addPage() 将 first_page 的内容加入到刚刚创建的页面 pdf_writer.addPage(first_page) # 以 'wb' 模式在目录中创建名为...f = open('US_Declaration.pdf','rb') # 列出每页的文本 # 索引对应页码. pdf_text = [0] # 0 是占位符，能让索引 1 对应于第 1 页 pdf_reader

2.8K3 0

如何使用python提取pdf表格及文本，并保存到excel

metadata属性获取pdf页数 len(pdf.pages) 读取第一页的页宽、页高等信息 # 第一页pdfplumber.Page实例 first_page = pdf.pages[0] # 查看页码...print('页码：',first_page.page_number) # 查看页宽 print('页宽：'first_page.width) # 查看页高 print('页高：'first_page.height...可能的设置及其默认值： { "vertical_strategy": "lines", "horizontal_strategy": "lines", "explicit_vertical_lines...pdfplumber的独特之处 python中有很多库可以处理pdf，比如PyPDF2、pdfminer等，那pdfplumber的优势在哪呢？...最关键的是pdfplumber作者持续在维护该库，而同样受欢迎的PyPDF2已经不再维护了。

2.8K3 0

如何使用Python提取PDF表格及文本，并保存到Excel

读取第一页的页宽、页高等信息 # 第一页pdfplumber.Page实例 first_page = pdf.pages[0] # 查看页码 print('页码：',first_page.page_number...正如案例所示，pdfplumber.Page对象的.extract_table()方法可以提取表格，返回从页面上最大的表中提取的文本，以列表列表的形式显示，结构为row -> cell。...可能的设置及其默认值： { "vertical_strategy": "lines", "horizontal_strategy": "lines", "explicit_vertical_lines...04 pdfplumber的独特之处 Python中有很多库可以处理PDF，比如PyPDF2、pdfminer等，那pdfplumber的优势在哪呢？...最关键的是pdfplumber作者持续在维护该库，而同样受欢迎的PyPDF2已经不再维护了。

4.6K2 0

使用PyPDF2模块处理PDF文件通用方法技巧

处理PDF文件，使用PyPDF2模块，PyPDF2不能从PDF文档中提取图像、图表或其他媒体，但可提取文本，作为字符串返回。...，需要先取得Page对象，使用pdfreader.getPage(传入页码顺序，从0开始)。...创建PDF：使用PdfFileWriter对象创建PDF例如pdfwriter=PyPDF2.PdfFileWriter()，但PyPDF2模块不可以利用其将任何文本写入PDF，该对象仅限从其他...叠加页面：PyPDF2模块可将一页的内容叠加到另一页上实现在页面上添加公司标志，时间戳或水印等。...PDF 文档可以有一个用户口令（允许查看该PDF）和一个拥有者口令（允许设置打印、注释、提取文本和其他功能的许可）。

1.2K3 0

Python 自动化指南（繁琐工作自动化）第二版：十五、使用 PDF 和 WORD 文档

因此，PyPDF2 在从 PDF 中提取文本时可能会出错，甚至可能根本无法打开某些 PDF。不幸的是，你对此无能为力。PyPDF2 可能无法处理某些特定的 PDF 文件。...从 PDF 中提取文本 PyPDF2 无法从 PDF 文档中提取图像、图表或其他媒体，但它可以提取文本并将其作为 Python 字符串返回。...PyPDF2 使用从零开始的索引来获取页面：第一页是第 0 页，第二页是第 1 页，以此类推。即使文档中的页码不同，情况也总是如此。...例如，假设您的 PDF 是一份较长报告的三页摘录，其页码为 42、43 和 44。...在 Shebang 行和关于程序功能的描述性注释之后，这段代码导入了os和PyPDF2模块 ➊。这个os.listdir('.')调用将返回当前工作目录中所有文件的列表。

3.5K5 0

PyPDF2读取PDF文件内容保存到本地TXT实例

库对pdf文件进行指定页面删除操作平台：win10家庭版，python 3.7，PyPDF2 思维过程：方法一：将pdf文件通过拆分为单页，放入一个文件夹，再删除其中不要的文件，最后再把剩余的文件进行合并为一个...pdfmerge(self): file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #读取新建文件夹下的所有文件并提取文件名转为数字...pdfmerge(self): file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #读取新建文件夹下的所有文件并提取文件名转为数字...time.sleep(3) exit() 方法二的完整代码： import PyPDF2 import os,time,shutil,sys import threading class...方法二不能实现范围性的删除以上这篇PyPDF2读取PDF文件内容保存到本地TXT实例就是小编分享给大家的全部内容了，希望能给大家一个参考。

2K1 0

用Python处理PDF

PDF处理的高频需求有：读取、写入、格式转换（pdf提取文本写入txt、根据url写入pdf等）、批处理（多个pdf合并为1个、切分pdf）等等。...先用pip install PyPDF2安装库。...切分测试结果截图通过上面的实践，可以看到实现这几个需求高频使用到的方法就是新建一个Reader或Writer对象，通过.getNumPages()获取一共的页码，通过.getPage(page)获取特定页...，.addPage()写入页码。...References [1] PyPDF2 Documentation: https://pythonhosted.org/PyPDF2/ [2] QLWeilcf_pdfProccWithpy.ipynb

1.7K6 0

PyPDF2的使用「建议收藏」

使用简单的python脚本 1、安装我们将使用第三方的模块 PyPDF2 ---- PyPDF2是作为PDF工具包构建的python库，它能够: 提取文档信息（标题，作者，…）按页拆分文档逐页合并文档...裁剪页面合并多个页面到一个页对pdf文档进行加密解密等等安装PyPDF2,在命令行下执行命令: pip install PyPDF2 ---- 注意，这个模块的名字对大小写是敏感的，所以，确保...y是小写的，其他字母都是大写的 2、使用模块 – 从pdf中提取文字 import PyPDF2 pdfFile = open('example.pdf','rb') pdfReader = PyPDF2...pdfReader的getPage方法可以接受页码参数，并返回页面对象。...因此，PyPDF2在从PDF中提取文本时可能会出错，甚至可能根本无法打开某些PDF。不幸的是，你对此无能为力。PyPDF2可能无法处理某些特定的PDF文件。

1K4 0

Python脚本工具，PyMuPDF批量提取PDF文件中的图片

PyMuPDF库安装方法： pip install PyMuPDF PyMuPDF库使用方法： #打开pdf读取页码数 import fitz pdf_document = "demo1.pdf"...doc = fitz.open(pdf_document) #打开pdf print ("number of pages: %i" % doc.pageCount) #获取页码数 print(doc.metadata...使用PyMuPDF从PDF提取图像 PyMuPDF使用该方法简化了从PDF文档提取图像的过程getPageImageList()。...startTime_pdf2img).seconds) if __name__ == "__main__": # 1、PDF地址 pdfPath = 'demo1.pdf' # 2、需要储存图片的目录...（使用PyPDF2和PyMuPDF） https://www.jianshu.com/p/8fbb662bd6f7 2.python 将PDF 转成图片的几种方法 https://blog.csdn.net

2.9K2 0

Py 自动化办公

的公司赞助 PyPdf 的一个分支后来命名为 PyPDF2，两个版本功能都基本一样，最大区别就是 PyPDF2 中加入了支持 Python3 特性； PyPDF2 近期也没有再更新了，最近一个版本发布在...与其它Python 库一样，安装可通过 pip 或 conda 工具 pip install pypdf2 PDF 信息提取使用 PyPDF2 可以从 PDF 中提取到一些元数据和文本信息，对 PDF...有个大致了解用 PyPDF2 能够提取的数据如下作者；创建者；制作者； Subject；标题；页数；这里我下载了官网提供的 PDF 样本《Seige_of_Vicksburg_Sample_OCR...\n'.format(str(i))) 代码将 PDF 原文件中的每一页拆分到每一个PDF文件，其中文件名用页索引来命名； image-20210313235957539 通过拆分也可以提取到 pdf...文件中固定页码范围，例如我只想提取 pdf 中的 2-5 页，其它部分不要，那么代码将写成下面形式 pdf_writer = PdfFileWriter() pdf_reader = PdfFileReader

1.7K0 0

python-PyPDF2

作用：处理PDF文档提取文本，旋转页面，叠加页面 1.pdfFileObj = open(‘meetingminutes.pdf’,’rb’)#打开pdf文档 2.pdfReader = PyPDF2....PdfFileReader(pdfFileObj)#获取pdf文档数据 3.pdfReader.numPages#获取页数 4.pageObj = pdfReader.getPage(0)#获取指定页码的内容...，从0开始 5.pageObj.extractText()#返回该页文本的字符串注：难以做到全部提取 6.pageObj.rotateClockwise(90)#旋转页面。...PdfFileWriter()#新建PdfFileWriter对象 pdfwriter.encrypt(‘sdsd’)#加密新建 1.无法世界添加内容，只能从其他pdf文档中拷贝过来加入 eg: import PyPDF2

2151 0

Typora导出的PDF目录标题自动加编号

Typora导出的PDF目录标题自动加编号在Typora主题文件夹增加如下文件后，标题便自动加上了编号： https://gitcode.net/as604049322/blog_data/-/blob.../master/base.user.css 例如：但是导出的PDF中，目录却没有编号：这是我使用Python处理该文件，使其具有编号，完整代码如下： # 博客地址：https://blog.csdn.net.../as604049322 __author__ = '小小明-代码实体' __date__ = '2023/8/31' from PyPDF2 import PdfReader, PdfWriter...pdf_reader.pages[i] idnum2pagenum[page.indirect_ref.idnum] = i # 保存每个标题对应的标签数据，包括层级，标题和页码索引...（页码-1） bookmark = [] def get_pdf_Bookmark_inter(outlines, tab=0): for outline in outlines

3564 0

盘点一个PDF自动化办公的实战问题

import os from PyPDF2 import PdfReader, PdfWriter # 设置目标目录和要插入的PDF文件路径 target_directory = r'd:\Users...PDF\公共文件.pdf' # 创建PdfFileReader对象来读取要插入的PDF pdf_reader = PdfReader(open(pdf_to_insert, 'rb')) # 遍历目标目录下的所有...：【此类生物】：你循环 pdf_reader 的页面不应该加入的也是 pdf_reader 对应的页面吗，为什么是pdf_reader_target.pages[page]，这两个pdf 页码数肯定不一样...你循环的是A.PDF 页面添加进去的是B.PDF 两pdf页码肯定不一样，肯定报错。【黄志诚】：我是要批量为目录下单每一个文件加一个文件。具体修改方法如下所示：顺利地解决了粉丝的问题。

831 0

3行代码将PDF中表格转成Excel文件

翻译一下就是Camelot是一个Python库，任何人都可以轻松地从PDF文件中提取表格!...比如PyPDF2，opencv等，根据自己的环境的需求一个个的安装。...这是我安装的目录 4. 检查是否安装成功，运行命令：gswin64 命令行工具中运行gswin64，如果能启动软件，说明安装OK 5....文件：Q1.xlsx 功能解析： 1.提取的主要功能是通过camelot中的read_pdf()方法实现的。...在read_pdf()方法的参数如下所示： def read_pdf( filepath, # 读取的pdf文件路径，必填 pages="1", #读取页码，多页中间用,隔开,可选

2.8K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭