前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

原创
作者头像
JQ实验室
发布2022-07-04 21:32:00
8150
发布2022-07-04 21:32:00
举报
文章被收录于专栏:实用技术实用技术

PDF是Portable Document Format的简称,意为“可携带文档格式”,是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。

在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

PyPDF是一个操作pdf的模块,现在最常用的版本是PyPDF2;

需要注意的是,这个库不能操作pdf获取文字信息

PyPDF2介绍

PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等操作。

安装PyPDF2

使用pip包管理器安装PyPDF2最新版本:

pip install PyPDF2编辑器推荐使用VSCode,启动VSCode,可以直接选择打开“终端”菜单,进行库的安装和程序的运行;非常的方便使用PyPDF2PyPdf2中有两个模块,分别是:读取库 PDFFileReader操作库 PdfFileWriter1、使用PDFFileReader可以获取pdf文件的基本信息,还可以获取到每一页pdf并加载为PageObject对象;from PyPDF2 import PdfFileReader #引入reader pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径 infomation = pdf.getDocumentInfo() #获取文档信息 number_of_pages = pdf.getNumPages() #获取总页数完整实例代码如下:

def read():

代码语言:txt
复制
'''读取pdf数据'''
代码语言:txt
复制
from PyPDF2 import PdfFileReader #引入reader
代码语言:txt
复制
pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
代码语言:txt
复制
#pdf = pdf.decrypt('password') #对加密的文件机密
代码语言:txt
复制
infomation = pdf.getDocumentInfo() #获取文档信息
代码语言:txt
复制
number_of_pages = pdf.getNumPages() #获取总页数
代码语言:txt
复制
txt = f'''{input_path} information:
代码语言:txt
复制
Author : {infomation.author},
代码语言:txt
复制
Creator : {infomation.creator},
代码语言:txt
复制
Producer : {infomation.producer},
代码语言:txt
复制
Subject : {infomation.subject},
代码语言:txt
复制
Title : {infomation.title},
代码语言:txt
复制
Number of pages : {number_of_pages}
代码语言:txt
复制
'''    
代码语言:txt
复制
print(txt)  #以上信息,除了页数,对于一下文件可能不存在
代码语言:txt
复制
#这个库不适合读取文档内容
代码语言:txt
复制
for i in range(0,number_of_pages):
代码语言:txt
复制
    pageObject = pdf.getPage(i)
代码语言:txt
复制
    #print(pageObject.extractText())
代码语言:txt
复制
2、使用PdfFileWriter需要配合PdfFileReader
>from PyPDF2 import PdfFileWriter,PdfFileReader
pdfReader = PdfFileReader(input_path)
pdfWriter = PdfFileWriter()
addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
pdfWriter.addPage(pdfReader.getPage(0))

具体可以参考下面代码的注释:

def write():

代码语言:txt
复制
'''写入'''
代码语言:txt
复制
from PyPDF2 import PdfFileWriter,PdfFileReader
代码语言:txt
复制
pdfReader = PdfFileReader(input_path)
代码语言:txt
复制
pdfWriter = PdfFileWriter()
代码语言:txt
复制
# addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
代码语言:txt
复制
pdfWriter.addPage(pdfReader.getPage(0))
代码语言:txt
复制
# insertBlankPage 将空白页插入此 PDF 文件并返回此页面的PageObject对象
代码语言:txt
复制
# insertBlankPage(width=None, height=None, index=0) 默认在最开始添加
代码语言:txt
复制
pdfWriter.insertBlankPage(width=100,height=100)
代码语言:txt
复制
# addBlankPage(width=None, height=None) 追加一个空白页,如果没有指定width|height,则使用上一页的width|height
代码语言:txt
复制
# 如果没有指定width|height并且也没有上一页 raise PageSizeNotDefinedError
代码语言:txt
复制
pdfWriter.addBlankPage()
代码语言:txt
复制
# 在此 PDF 文件中插入一个pageObject对象。该页面通常是从一个 PdfFileReader实例中获取的
代码语言:txt
复制
# index指定插入位置 默认再最开始插入
代码语言:txt
复制
pdfWriter.insertPage(pdfReader.getPage(2))
代码语言:txt
复制
# addAttachment(fname, fdata) 在 PDF 中嵌入文件
代码语言:txt
复制
# pdfWriter.addAttachment(fname="附件一.txt", fdata=b'Hello world!')
代码语言:txt
复制
print(pdfWriter.getNumPages())
代码语言:txt
复制
#加密
代码语言:txt
复制
#pdfWriter.encrypt(user_pwd='password', owner_pwd='password')
代码语言:txt
复制
pdfWriter.write(open('H:/test_w.pdf','wb'))
代码语言:txt
复制

3、重要的概念PageObject:

在PdfFileReader加载pdf文件后,获取的每一页都会被转换为PageObject对象,对于Pdf的操作,实际就是在操作PageObject对象;

下面是PageObject对象中常用的方法:

PageObject的方法:

mergePage(page2) 将两个页面的内容合并为一个,可以实现水印效果

mergeRotatedPage(page2, rotation, expand=False) 类似mergePage方法,可以对page2页面进行旋转操作

mergeScaledPage(page2, scale, expand=False) 类似mergePage方法,可以对page2页面进行缩放操作

mergeTranslatedPage(page2, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行平移操作

mergeRotatedScaledPage(page2, rotation, scale, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及缩放操作

mergeRotatedScaledTranslatedPage(page2, rotation, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转、缩放以及平移操作

mergeRotatedTranslatedPage(page2, rotation, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及平移操作

mergeScaledTranslatedPage(page2, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行缩放以及平移操作

mergeTransformedPage(page2, ctm, expand=False) 类似mergePage方法,可以对page2页面进行矩阵转换操作

rotateClockwise(angle) 顺时针旋转页面,angle必须是 90 度的增量

rotateCounterClockwise(angle) 逆时针旋转页面,angle必须是 90 度的增量

scale(sx, sy) 缩放页面

scaleBy(factor) 按固定XY轴比例缩放页面

scaleTo(width, height) 页面缩放到指定尺寸

实现一个合并pdf文件的功能:

可参考代码注释理解:

image.png
image.png

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • PyPDF2介绍
  • 安装PyPDF2
    • 实现一个合并pdf文件的功能:
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档