开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

基于字符串将具有多个页面多页pdf分割为单独的pdf，并使用字符串python进行保存

基于字符串将具有多个页面的多页PDF分割为单独的PDF，并使用Python进行保存的方法如下：

首先，你需要安装Python的PDF处理库，比如PyPDF2或pdfplumber。你可以使用pip命令来安装它们：

pip install PyPDF2

或

pip install pdfplumber

导入所需的库：

import PyPDF2

或

import pdfplumber

打开多页PDF文件：

pdf_file = open('多页PDF文件路径', 'rb')

创建一个PDF阅读器对象：

pdf_reader = PyPDF2.PdfFileReader(pdf_file)

或

pdf_reader = pdfplumber.open('多页PDF文件路径')

获取PDF文件的总页数：

total_pages = pdf_reader.numPages

遍历每一页，将每一页的内容保存为单独的PDF文件：

for page_number in range(total_pages):
    # 创建一个新的PDF写入对象
    pdf_writer = PyPDF2.PdfFileWriter()
    # 或 pdf_writer = pdfplumber.PDF('多页PDF文件路径')
    
    # 获取当前页的内容
    page = pdf_reader.getPage(page_number)
    
    # 将当前页添加到PDF写入对象中
    pdf_writer.addPage(page)
    
    # 构造保存的文件名
    output_filename = f'第{page_number+1}页.pdf'
    
    # 保存单独的PDF文件
    with open(output_filename, 'wb') as output_file:
        pdf_writer.write(output_file)

关闭打开的文件：

pdf_file.close()

或

pdf_reader.close()

这样，你就可以将具有多个页面的多页PDF文件分割为单独的PDF文件，并使用Python进行保存了。

请注意，以上代码示例使用的是PyPDF2和pdfplumber库中的方法，你可以根据自己的需求选择其中一个库来实现。另外，如果你需要更多关于字符串处理、文件操作等方面的帮助，可以参考Python官方文档或其他相关教程。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python玩转PDF文档的各种实用操作

今天小编为大家分享如何用Python来玩转PDF文档，例如提取当中的部分内容并导出，给PDF文件添加水印，合并多份PDF文件等等，而本文会着重用到PyPDF2模块来玩转PDF文档，以及tabula模块来对...02 获取文档的部分内容并保存而当我们想将其中的部分内容提取出来单独保存成一个PDF文件时，步骤也是十分的简单，首先用PdfFileWriter来创建一个writer变量， ?...03 合并多个PDF文档除了提取PDF文件中的部分内容，PyPDF2库也能帮助我们进行合并PDF文件， ?...首先遍历输入的paths，并为每个输入创建一个PDF阅读对象，然后遍历PDF文件中的所有页面，并使用addPage()将这些页面写入writer对象。...在.read_pdf中我们可以通过筛选pages参数来选择我们要进行读取数据的页数，而area参数则表示在当前页面中要读取数据的区域，而，当然在表格当中我们依然可以看到字符串之间的空格用'\r'来代替，

9391 0

Python 自动化指南（繁琐工作自动化）第二版：十五、使用 PDF 和 WORD 文档

幸运的是，有 Python 模块可以让您轻松地与 PDF 和 Word 文档进行交互。本章将介绍两个这样的模块：PyPDF2 和 Python-Docx。...我们用旋转后的页面写一个新的 PDF，并保存为rotatedPage.pdf➌。生成的 PDF 将有一页，顺时针旋转 90 度，如图图 15-2 所示。...使用 Python，很容易将水印添加到多个文件中，并且只添加到程序指定的页面中。从下载watermark.pdf，将 PDF 和meetingminutes.pdf放在当前工作目录下。...最后，第四个也是最后一个Run对象包含斜体的'italic'➒。使用 Python-Docx，您的 Python 程序现在将能够从docx文件中读取文本，并像使用任何其他字符串值一样使用它。...我们可以看到，将一个段落划分为多个游程并单独访问每个游程是很简单的。所以我们在第二段得到了第一、第二和第四次运行；每次跑步的风格；并将结果保存到新文档中。

3.5K5 0

Python处理PDF——PyMuPDF的安装与使用

它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。...文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档，或创建新的空PDF。您还可以将文档用作上下文管理器。 3....Document.metadata是一个具有以下键的Python字典。它适用于所有文档类型，但并非所有条目都始终包含数据。元数据字段为字符串，如果未另行指示，则为无。...页面(Page) 页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像，并搜索文本字符串。...因此，您可以轻松地使用创建新的PDF： - 第一页或最后10页- 仅奇数页或偶数页（用于双面打印）- 包含或不包含给定文本的页- 颠倒页面顺序保存的新文档将包含仍然有效的链接、注释和书签（i.a.w

6.3K1 0

Python处理PDF——PyMuPDF的安装与使用

它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。...文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档，或创建新的空PDF。您还可以将文档用作上下文管理器。 3....Document.metadata是一个具有以下键的Python字典。它适用于所有文档类型，但并非所有条目都始终包含数据。元数据字段为字符串，如果未另行指示，则为无。...页面(Page) 页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像，并搜索文本字符串。...因此，您可以轻松地使用创建新的PDF： - 第一页或最后10页- 仅奇数页或偶数页（用于双面打印）- 包含或不包含给定文本的页- 颠倒页面顺序保存的新文档将包含仍然有效的链接、注释和书签（i.a.w

7.2K3 0

Python中的pdfkit入门

转换为PDF，并应用配置选项pdfkit.from_string(html, 'output.pdf', options=options)在这个示例中，我们使用了一些配置选项，比如页面大小（A4）和页边距...应用场景pdfkit具有广泛的应用场景，以下是一些常见的使用示例：将网页转换为PDF：你可以通过指定URL或HTML字符串，将网页转换为高质量的PDF文件。...你可以使用pdfkit将HTML转换为高质量的PDF文件，并使用丰富的配置选项来控制生成的PDF文件。...pdfkit是一个用于将HTML转换为PDF的Python库，它具有许多优点，如易于使用、功能强大等。但是，它也存在一些缺点。...PyPDF2：PyPDF2是一个用于处理PDF文件的Python库，它可以合并、拆分、提取页面等操作。它不提供HTML转PDF的功能，但是可以在创建PDF后进行后续操作。

4683 0

Python 处理 PDF —— PyMuPDF 的安装与使用！

它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。...文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档，或创建新的空PDF。您还可以将文档用作上下文管理器。 3....Document.metadata是一个具有以下键的Python字典。它适用于所有文档类型，但并非所有条目都始终包含数据。元数据字段为字符串，如果未另行指示，则为无。...页面(Page) 页面处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像，并搜索文本字符串。...因此，您可以轻松地使用创建新的PDF：第一页或最后10页仅奇数页或偶数页（用于双面打印）包含或不包含给定文本的页颠倒页面顺序保存的新文档将包含仍然有效的链接、注释和书签（i.a.w.指向所选页面或某些外部资源

1.9K1 0

Python处理PDF——PyMuPDF的安装与使用！

它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。...文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档，或创建新的空PDF。您还可以将文档用作上下文管理器。 3....Document.metadata是一个具有以下键的Python字典。它适用于所有文档类型，但并非所有条目都始终包含数据。元数据字段为字符串，如果未另行指示，则为无。...页面(Page) 页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像，并搜索文本字符串。...因此，您可以轻松地使用创建新的PDF： - 第一页或最后10页- 仅奇数页或偶数页（用于双面打印）- 包含或不包含给定文本的页- 颠倒页面顺序保存的新文档将包含仍然有效的链接、注释和书签（i.a.w

3.9K1 0

Python 处理 PDF 的神器 -- PyMuPDF

它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。...文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档，或创建新的空PDF。您还可以将文档用作上下文管理器。 3....Document.metadata是一个具有以下键的Python字典。它适用于所有文档类型，但并非所有条目都始终包含数据。元数据字段为字符串，如果未另行指示，则为无。...页面(Page) 页面处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像，并搜索文本字符串。...因此，您可以轻松地使用创建新的PDF： - 第一页或最后10页仅奇数页或偶数页（用于双面打印）包含或不包含给定文本的页颠倒页面顺序保存的新文档将包含仍然有效的链接、注释和书签（i.a.w.指向所选页面或某些外部资源

3.1K3 1

在 Python 中创建和修改 PDF 文件

使用PageObject实例的.extractText()方法将文本提取为字符串。 Pride_and_Prejudice.pdf有234页面。每个页面都有一个介于0和之间的索引233。...从 PDF 中提取多个页面让我们从中提取第一章Pride_and_Prejudice.pdf并将其保存为新的 PDF。...例如，一家公司可能会在月底将多份日报表合并为一份月报表。合并两个 PDF 也会将 PDF 合并为一个文件。...此方法采用以度为单位的整数参数，并将页面顺时针旋转这么多度。例如，.rotateClockwise(90)将 PDF 页面顺时针旋转九十度。...但是，/Rotate键可能具有值0。这是许多使处理 PDF 文件令人沮丧的怪癖之一。有时您只需要在 PDF 阅读器程序中打开 PDF 并手动解决问题。裁剪页面 PDF 的另一个常见操作是裁剪页面。

12.5K7 0

八、制图模块【ArcGIS Python系列】

使用 Layer 对象时，将保留其符号系统。例如，当引用一个地图中的图层并使用 Map.insertLayer() 方法将图层添加到另一个地图时，符号系统是相同的。...），并通过所有房屋单元的原始计数（在名为HSE_UNITS的字段中）对该计数进行归一化，得到一个分数。...2.将符号系统应用于栅格图层可以对土地利用图进行映射五、理解和使用布局（layout） Layout 对象将引用 ArcGIS Pro 工程 (.aprx) 中的单个页面布局。...可用于访问常见属性（如页面大小）和多个不同的导出方法。Layout 对象提供对布局的名称、页面大小和页面单位等属性的访问。...下面的代码将创建新 PDF 文档、追加三个独立 PDF 文档的内容并保存生成的 PDF 文件，如下所示： import arcpy, os # 删除已经存在的pdf pdfPath = r"C:\Projects

2771 0

用Python玩转PDF的各种骚操作

有时候PDF是横向模式而不是纵向模式，甚至是颠倒的。当有人扫描文档为PDF或电子邮件时，很可能会发生这种情况。我们可以打印出文档并阅读纸质版本，也可以使用Python的强大功能来旋转有问题的页面。...接下来，可以使用.get page()获取所需的页面。上面开始输入了第0页，也就是第一页，调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。...并对其所读取的页面进行遍历。...对于PDF中的每个页面，创建一个新的PDF的writer实例并向其添加单个页面。然后，将该页面写入一个唯一命名的文件。脚本运行完毕后，就可以将原始PDF的每个页面拆分为单独的PDF。如何添加水印？

2.1K5 0

Python 操作pdf(pdfplumber读取PDF写入Exce)

类pdfplumber.PDF类表示单个PDF ,并具有两个主要属性:属性说明...,将页面的所有字符对象整理为的那个字符串 .extract_ words( ) 返回的是所有的单词及其相关信息 . extract_ tables...您可以使用此方法刷新缓存并释放内存。1.2 常用操作PDF是Portable Document Format的缩写，这类文件通常使用.pdf作为其扩展名。...= "C:/Users/Administrator/Desktop/test08/test11 - 多页.pdf"with pdfplumber.open(path) as pdf: print...xlwt# 加载pdfpath = "C:/Users/Administrator/Desktop/test08/test11 - 多页.pdf"with pdfplumber.open(path)

3981 0

使用Python拆分和合并PDF文件

getPage()方法允许我们将PDF文件拆分为单独的页面，以便我们可以选择，然后使用Python将它们合并到一个文件中。...图2：使用Python从PDF文件中获取页面创建并保存PDF文件现在我们已经成功地从PDF中提取了一个页面。...要将其保存为单独的文件，我们需要创建一个PdfielWriter（）对象，将页面添加到该对象中，然后将其保存到计算机。按照上述步骤编写代码如下。...: pdf_writer.write(f) 将多个页面合并到同一个PDF文件中我们现在可以继续从PDF中获取所有需要的页面，并将它们合并到一个文件中。...结果表明PyPDF4库中有一个bug，每次保存完PDF文件并想保存另一个文件时，都必须重新创建PdfileReader()对象。这里，我们看到这个错误是因为之前保存了一个一页的PDF文件。

2.4K1 0

如何使用Python玩转PDF各种骚操作？

有时候PDF是横向模式而不是纵向模式，甚至是颠倒的。当有人扫描文档为PDF或电子邮件时，很可能会发生这种情况。我们可以打印出文档并阅读纸质版本，也可以使用Python的强大功能来旋转有问题的页面。...接下来，可以使用.get page()获取所需的页面。上面开始输入了第0页，也就是第一页，调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...每次调用Rotation旋转方法后，都会调用.addPage()，这将向writer对象添加页面的旋转版本。最后一页是第3页，没有对其进行任何旋转。...首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。...对于PDF中的每个页面，创建一个新的PDF的writer实例并向其添加单个页面。然后，将该页面写入一个唯一命名的文件。脚本运行完毕后，就可以将原始PDF的每个页面拆分为单独的PDF。

1.2K2 0

如何使用Python玩转PDF各种骚操作？

有时候PDF是横向模式而不是纵向模式，甚至是颠倒的。当有人扫描文档为PDF或电子邮件时，很可能会发生这种情况。我们可以打印出文档并阅读纸质版本，也可以使用Python的强大功能来旋转有问题的页面。...接下来，可以使用.get page()获取所需的页面。上面开始输入了第0页，也就是第一页，调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...每次调用Rotation旋转方法后，都会调用.addPage()，这将向writer对象添加页面的旋转版本。最后一页是第3页，没有对其进行任何旋转。...首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。...对于PDF中的每个页面，创建一个新的PDF的writer实例并向其添加单个页面。然后，将该页面写入一个唯一命名的文件。脚本运行完毕后，就可以将原始PDF的每个页面拆分为单独的PDF。如何添加水印？

1.1K3 0

Python玩转PDF各种骚操作大全！

有时候PDF是横向模式而不是纵向模式，甚至是颠倒的。当有人扫描文档为PDF或电子邮件时，很可能会发生这种情况。我们可以打印出文档并阅读纸质版本，也可以使用Python的强大功能来旋转有问题的页面。...接下来，可以使用.get page()获取所需的页面。上面开始输入了第0页，也就是第一页，调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...每次调用Rotation旋转方法后，都会调用.addPage()，这将向writer对象添加页面的旋转版本。最后一页是第3页，没有对其进行任何旋转。...首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。...对于PDF中的每个页面，创建一个新的PDF的writer实例并向其添加单个页面。然后，将该页面写入一个唯一命名的文件。脚本运行完毕后，就可以将原始PDF的每个页面拆分为单独的PDF。如何添加水印？

1.5K4 0

如何使用Python玩转PDF各种骚操作？

有时候PDF是横向模式而不是纵向模式，甚至是颠倒的。当有人扫描文档为PDF或电子邮件时，很可能会发生这种情况。我们可以打印出文档并阅读纸质版本，也可以使用Python的强大功能来旋转有问题的页面。...接下来，可以使用.get page()获取所需的页面。上面开始输入了第0页，也就是第一页，调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...每次调用Rotation旋转方法后，都会调用.addPage()，这将向writer对象添加页面的旋转版本。最后一页是第3页，没有对其进行任何旋转。...首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。...对于PDF中的每个页面，创建一个新的PDF的writer实例并向其添加单个页面。然后，将该页面写入一个唯一命名的文件。脚本运行完毕后，就可以将原始PDF的每个页面拆分为单独的PDF。如何添加水印？

1.9K2 0

Python骚操作，提取pdf文件中的表格数据！

作为一个强大的pdf文件解析工具，pdfplumber库可迅速将pdf文档转换为易于处理的txt文档，并输出pdf文档的字符、页面、页码等信息，还可进行页面可视化操作。...（1）.extract_tables( ) 可输出页面中所有表格，并返回一个嵌套列表，其结构层次为table→row→cell。...（2）.extract_table( ) 返回多个独立列表，其结构层次为row→cell。若页面中存在多个行数相同的表格，则默认输出顶部表格；否则，仅输出行数最多的一个表格。...此时，表格的每一行都作为一个单独的列表，列表中每个元素即为原表格的各个单元格内容。若需输出某个元素，得到的便是具体的数值或字符串。如下： Python骚操作，提取pdf文件中的表格数据！...其中一种思路便是将提取出的列表视为一个字符串，结合Python的正则表达式re模块进行字符串处理后，将其保存为以标准英文逗号分隔、可被Excel识别的csv格式文件，即进行如下操作： Python骚操作

7K1 0

Python自动化办公系列之Python操作PDF

全篇包括三个章节，分别为：Python使用openpyxl操作excel、python使用PyPDF2和pdfplumber操作pdf、python使用python-docx操作word。...解密pdf并保存为未加密的pdf 上下滚动查看更多章节二：python使用PyPDF2和pdfplumber操作pdf 1、PyPDF2和pdfplumber库介绍 PyPDF2官网：PyPDF2官网.../jsvine/pdfplumber），可以更好地读取PDF文件内容和提取PDF中的表格；这两个库不属于python标准库，都需要单独安装； 2、python提取PDF文字内容 1）利用pdfplumber...判断：将列表中每个元素都连接成一个字符串，如果还是一个空字符串那么肯定就是空行。...", "wb") as out: pdf_writer.write(out) 结果如下： ② 解密pdf并保存为未加密的pdf from PyPDF2 import PdfFileReader

8863 0

PyMuPDF 1.24.4 中文文档（十三）

PikePDF 类似于 PDFrw 的 Python 包，但基于 C++库 QPDF。 PDF2JPG 专门用于将 PDF 页面渲染为 JPG 图像的 Python 包。...PDFMiner 用于从 PDF 中提取文本和其他数据的纯 Python 工具。 XPDF 具有多个功能的命令行实用程序。...PikePDF 与 PDFrw 类似的 Python 包，但基于 C++ 库 QPDF。 PDF2JPG 专门用于将 PDF 页面呈现为 JPG 图像的 Python 包。...受支持的图片可以通过它们的 Pixmap 进行 OCR，生成带有文本层的 1 页 PDF。所有支持的文档页面（不仅限于 PDF）都可以使用专业的文本提取方法进行 OCR。...允许切换清理，因此只进行语法清理。 1.17.5 版本变更修复问题 #561 – 第二次尝试：某些具有多个交替字体的 TextWriter 使用未能正确工作。

1921 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭