前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >20多行 Python 代码优雅搞定 PDF 转换成图片

20多行 Python 代码优雅搞定 PDF 转换成图片

作者头像
昱良
发布2019-06-19 17:01:12
2.9K0
发布2019-06-19 17:01:12
举报

源 / 程序员大咖

本文利用 PyPDF包来处理 PDF文件,为了方便快捷,我这里直接将一个页面转换成图片,就不需要去识别页面中的每一个 PDF元素了,这是没必要的。

转换

核心代码很简单,就是将 PDF文件读取出来,转换成 PdfFileReader,然后就可以根据 PyPDF2的API去获得每一个页面的二进制数据,拿到二进制数据过后,就能很方便的进行图片处理了,这里用 wand包来进行图片处理。

代码语言:javascript
复制
 1# -*- coding: utf-8 -*-
 2
 3import io
 4from wand.image import Image
 5from wand.color import Color
 6from PyPDF2 import PdfFileReader, PdfFileWriter
 7memo = {}
 8'''
 9需要注意的是一般PDF文件较大,如果一次性转换
10整个PDF文件需要小心内存溢出的问题,我们这里
11将第一次载入的整个PDF文件保存到内存,避免每
12次读取的时候都重新载入。
13'''
14def getPdfReader(filename):
15   reader = memo.get(filename, None)
16   if reader is None:
17       reader = PdfFileReader(filename, strict=False)
18       memo[filename] = reader
19   return reader
20
21def _run_convert(filename, page, res=120):
22   idx = page + 1
23   pdfile = getPdfReader(filename)
24   pageObj = pdfile.getPage(page)
25   dst_pdf = PdfFileWriter()
26   dst_pdf.addPage(pageObj)
27   pdf_bytes = io.BytesIO()
28   dst_pdf.write(pdf_bytes)
29   pdf_bytes.seek(0)
30   img = Image(file=pdf_bytes, resolution=res)
31   img.format =  png 
32   img.compression_quality = 90
33   img.background_color = Color("white")
34   img_path =  %s%d.png  % (filename[:filename.rindex( . )], idx)
35   img.save(filename=img_path)
36   img.destroy()

批量处理

上面已经完成了一个 PDF页面的转换,要完成整个文件的转换就很简单了,只需要拿到文件的总页码,然后循环执行就行。考虑到转换比较耗时,可以使用异步处理的方式加快速度。比如可以使用 celery来搭配处理,一定注意小心内存泄露。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习算法与Python学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 转换
  • 批量处理
相关产品与服务
图片处理
图片处理(Image Processing,IP)是由腾讯云数据万象提供的丰富的图片处理服务,广泛应用于腾讯内部各产品。支持对腾讯云对象存储 COS 或第三方源的图片进行处理,提供基础处理能力(图片裁剪、转格式、缩放、打水印等)、图片瘦身能力(Guetzli 压缩、AVIF 转码压缩)、盲水印版权保护能力,同时支持先进的图像 AI 功能(图像增强、图像标签、图像评分、图像修复、商品抠图等),满足多种业务场景下的图片处理需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档