专栏首页早起PythonPython办公自动化|批量合并PDF,拿来就用

Python办公自动化|批量合并PDF,拿来就用

大家好,今天分享一个实用的办公脚本:将多个PDF合并为一个PDF,例如我手上现在有如下3个PDF分册,需要整合成一个完整的PDF

如果换成你操作的话,是不是打开百度搜索:PDF合并,然后去第三方网站操作,可能会收费不说还担心文件泄漏,现在有请Python出场,简单快速,光速合并,拿走就用

首先导入需要的库和路径设置

import os
from PyPDF2 import PdfFileReader, PdfFileWriter
if __name__ == '__main__':
    # 设置存放多个pdf文件的文件夹
    dir_path = r'C:\Scientific Research\Knowladge\Ophthalmology\Chinese Ophthalmology' 
    # 目标文件的名字
    file_name = "中华眼科学(第3版)合并版.pdf" 

接着获取所有pdf文件的绝对路径,这里需要利用os库中的os.walk遍历文件和os.path.join拼接路径

for dirpath, dirs, files in os.walk(dir_path):
    print(dirpath)
    print(files)
# 结果返回当前路径、当前路径下文件夹,并以列表返回所有文件

建议直接将需要合并的pdf放在一个文件夹,这样就无需再对文件后缀进行判断,包装成函数后如下:

def GetFileName(dir_path):
    file_list = [os.path.join(dirpath, filesname) \
                 for dirpath, dirs, files in os.walk(dir_path) \
                 for filesname in files]
    return file_list

调用该函数的结果

现在建立合并PDF的函数

def MergePDF(dir_path, file_name):
    # 实例化写入对象
    output = PdfFileWriter()
    outputPages = 0
    # 调用上一个函数获取全部文件的绝对路径
    file_list = GetFileName(dir_path)

    for pdf_file in file_list:
        print("文件:%s" % pdf_file.split('\\')[-1], end=' ')

        # 读取PDF文件
        input = PdfFileReader(open(pdf_file, "rb"))
        # 获得源PDF文件中页面总数
        pageCount = input.getNumPages()
        outputPages += pageCount
        print("页数:%d" % pageCount)
        # 分别将page添加到输出output中
        for iPage in range(pageCount):
            output.addPage(input.getPage(iPage))
    print("\n合并后的总页数:%d" % outputPages)
    # 写入到目标PDF文件
    print("PDF文件正在合并,请稍等......")
    with open(os.path.join(dir_path, file_name), "wb") as outputfile:
        # 注意这里的写法和正常的上下文文件写入是相反的
        output.write(outputfile)
    print("PDF文件合并完成")

可以看到虽然待合并的PDF文件比较大,但是依旧快速的合并成功!

最后附上完整代码,只需将代码中PDF的路径和文件名修改即可使用!

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

def GetFileName(dir_path):
    file_list = [os.path.join(dirpath, filesname) \
                 for dirpath, dirs, files in os.walk(dir_path) \
                 for filesname in files]
    return file_list

def MergePDF(dir_path, file_name):
    output = PdfFileWriter()
    outputPages = 0
    file_list = GetFileName(dir_path)
    for pdf_file in file_list:
        print("文件:%s" % pdf_file.split('\\')[-1], end=' ')
        # 读取PDF文件
        input = PdfFileReader(open(pdf_file, "rb"))
        # 获得源PDF文件中页面总数
        pageCount = input.getNumPages()
        outputPages += pageCount
        print("页数:%d" % pageCount)
        # 分别将page添加到输出output中
        for iPage in range(pageCount):
            output.addPage(input.getPage(iPage))
    print("\n合并后的总页数:%d" % outputPages)
    # 写入到目标PDF文件
    print("PDF文件正在合并,请稍等......")
    with open(os.path.join(dir_path, file_name), "wb") as outputfile:
        # 注意这里的写法和正常的上下文文件写入是相反的
        output.write(outputfile)
    print("PDF文件合并完成")

if __name__ == '__main__':
    # 设置存放多个pdf文件的文件夹
    dir_path = r'C:\Scientific Research\Knowladge\Ophthalmology\Chinese Ophthalmology'
    # 目标文件的名字
    file_name = "中华眼科学(第3版)合并版.pdf"
    MergePDF(dir_path, file_name)

本文分享自微信公众号 - 早起Python(zaoqi-python),作者:陈熹

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-05-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • LeetCode数据库篇|175组合两个表

    大家好,从今天起我们将对Leetcode中数据库相关题目进行讲解,如果对SQL相关操作还不是很了解的读者可以点击万字Mysql学习笔记复习。

    刘早起
  • 别再问如何用Python提取PDF内容了!

    大家好,在之前的办公自动化系列文章中我们已经详细介绍了?如何使用Python批量处理PDF文件,包括合并、拆分、水印、加密等操作。

    刘早起
  • Pandas学习笔记之时间序列总结

    早起导读:pandas是Python数据处理的利器,时间序列数据又是在很多场景中出现,本文来自GitHub,详细讲解了Python和Pandas中的时间及时间序...

    刘早起
  • 微软Azure予力Green Dot客服成就不凡

    碧点公司(Green Dot)是仔细聆听消费者心声,以消费者为导向的金融科技创新公司,致力于为大众带来高效、便捷与体验舒适的个人银行业务。Green Dot创造...

    Edi Wang
  • JS高级测试: 下列选项中关于浏览器对象的说法错误的是?

    但是 History对象 Location对象 都属于 window下的方法,是同级对象;

    舒克
  • 巧用 CSS3 中的 clip-path 绘制图形

    相信大多数前端同学在面试或者学习的时候都遇到过使用 CSS 绘制正方形、三角形等基础图形的问题,各种奇技淫巧想必大家都运用得比较熟练。本文则介绍了使用 CSS3...

    逆葵
  • 工业自动化系统设计,工业过程自动化技术系统集成可盈利空间分析

    工业自动化技术系统集成是我国目前实现工业自动化发展方向的重点之一,每个国家一直都很重视工业机器人自动化技术集成来实现产业自动化发展,从中投入了大量的资金和政策支...

    数商云
  • 环形链表

    如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的位置(...

    _kyle
  • 你真的了解一段Java程序的生命史吗

    作为一名程序猿 ,我们每天都在写Code,但你真的了解它的生命周期么?今天就来简单聊下它的生命历程,说起一段Java Code,从出生到game over大体分...

    哲洛不闹
  • Android API编程之Assets文件操作示例

    本文实例讲述了Android API Assets文件操作。分享给大家供大家参考,具体如下:

    砸漏

扫码关注云+社区

领取腾讯云代金券