展开

关键词

PythonPDF成图片PNG和JPG

前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF换成图片,然后对图片进行测试。 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python方式相对比Java更快一些,更简单一些。 下面首先分享一下PythonPDF换成图片,Java后续有时间在进行分享。需求:我需要先将PDF换成为PNG图片,并截取图片的一部分存储,然后作为测试目标进行测试。 操作:1、PDFPNG图片2、对PNG图片进行指定区域截图,在另存到指定文件夹下针对截图此处所找到的方法如上一篇博客:Python图片裁剪的两种方式——Pillow和OpenCVPyMuPDF将PDF first_page --> 从哪一页开始换,默认是PDF的第一页last_page --> 换到哪一页,默认是PDF的最后一页fmt --> 输出图像格式默认格式是ppm,还可以设置为png和jpeg

8.6K20

花10分钟写一个 Python 脚本,搞定了初中老师一个下午的工作

一天晚上突然微信问我,怎么把图片PDF。懵了一下,这个直接打印成PDF不就可以了?遂告诉他,结果感觉两个人不是一个世界的:?好不容易教他把图片放Word里面打印,结果发现他的需求并不止于此:? 需要按照一定的图片顺序进行排序并PDF。总结起来,也就是处理文件,将图片拼接组合成PDF。这个小需求,用Python实现起来轻轻松松。 而需求最终每一个PDF的大小不超过20MB,缩放图片是必须要做的。在 Python 中处理图片很经典的第三方模块是 Pillow,通过它可以对图像进行各种操作,当然也不限于缩小图片。 图片PDF在这个任务里面,核心的需求是把图片PDF 格式的文件。Python 中图片 PDF 的功能有很多模块可以实现,在此州的先生选用的是 img2pdf。 直接调用img2pdf.convert()方法,将图片路径或图片列表路径作为参数传递进去,就可以得到一个换好的 PDF 文件对象。

23930
  • 广告
    关闭

    50+款云产品免费体验

    提供包括云服务器,云数据库在内的50+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python | PDF 提取文本的几种方法

    前言常见的 PDF 文件可以分为两类:一种是文本化而成(Text-Based),通常可以直接复制和粘贴;另一种是扫描文件而成(Scanned),比如影印书籍、插入图片制成的文件。 依据此分类,将 Python 中处理 PDF 文件的第三方库可以简单归类:文本化:PyPDF2,pdfminer,textract,slate 等库可用于提取文本;pdfplumber,camelot 具体来说:先将 PDF 换为图片,再利用 OCR 提取文本内容。另外,因为全书有 320 页,处理起来太费时间,我就先提取其中的 15-30 页(正好是作者序言)进行演示。 , wb)) # PDF 为图片PDF_file = .outputtest_15_30.pdfpages = convert_from_path(PDF_file, 500)image_counter 小结本文对 Python 中从 PDF 提取信息的方法进行了介绍,并将主要第三方库进行了对比。可以看出,PDF换是一个比较麻烦的事,换效果很大程度取决于文档本身的质量。

    29041

    Python处理PDF

    Python处理PDF格式数据的笔记。 PDF处理的高频需求有:读取、写入、格式换(pdf提取文本写入txt、根据url写入pdf等) 、批处理(多个pdf合并为1个、切分pdf)等等。 查了下相关资料,Python操作PDF的库有(只是应用的话肯定不至于造轮子从二进制数据开始读):pdfminer、pdfminer3k、PyPDF、PyPDF2、pdf2htmlex、pdf2image 图片PDF 需要用到额外的PIL库:处理图片的神器。 -mindmap-01.JPG)img.save(D:docOfStupypdf2-mindmap-01.pdf, PDF) #通过PIL库保存为pdf格式#多张图片pdfilst= #图片列表 #

    74260

    怎样把JPG换成PDF?这个方法你知道吗

    在网络发展的道路上,图片是突破文字的束缚的另一种格式,发展至今,图片也变得有更多的可能,那么怎么把JPG换成PDF? 今天就分享给你们简单的两种方法方法一【使用PS另存为PDF】材料:JPG格式 图片数张、电脑一台第一步:使用PS打开图片,然后选择图层之后,点击文件储存为按钮第二步:选择格式为PDF格式,然后确定PDF 文件存放路径之后点击确定方法二【使用PDF换器换】第一步:打开工具之后,选择功能为,PDF换图片PDF,具体位置如下图所示第二步:添加JPG格式图片到工具当中,不局限为JPG,也可以是png,gif 等格式第三步:把JPG图片添加进去之后,就可以点击软件下方的“开始换”然后等待一会就可以换成功了。 效果图总结:借助两种工具可以实现JPGPDF,这里提示一下,第一种适用于图片数量少的情况,毕竟需要一个一个的打开另存为,第二种适合文件较多,可以批量处理,可以根据自身图片数量决定使用哪种方法。

    33710

    python pdf image

    前言 最近项目需要pdf中提取内容,pdf是扫描版,想通过成图片,通过图像识别区分出段落,然后进行ocr识别,得到结构化数据 所以第一步需要搞定的就是pdf图片了 环境:Mac 10.12.6 (16G29 usrlocaloptimagemagick@6 >> ~.bash_profileecho export PATH=$MAGICK_HOMEbin:$PATH >> ~.bash_profilepip install Wand python

    2.8K430

    Python编程快速上手——选择性拷贝操作案例分析

    本文实例讲述了Python选择性拷贝操作。分享给大家供大家参考,具体如下:问题如下:编写一个程序,遍历一个目录树,查找特的那个拓展名的文件(如,.jpg或.pdf)。 拷贝完成反馈结果----代码如下:import os, shutil fiName = input(请输入需要遍历的文件夹地址:)baseName = input(请输入需要查找文件的拓展名(如:.pdf ,.txt,.jpg):)toName = input(请输入需要移动到的地址:) for folderName,_, filenames in os.walk(fiName): #os.walk默认返回三个参数 baseName): print(当前文件夹的“{0}”文件有:{1}.format(baseName,filename)) filePath = folderName ++ filename #加上义字符 更多关于Python相关内容感兴趣的读者可查看本站专题:《Python文件与目录操作技巧汇总》、《Python文本文件操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》

    15040

    Python工具源码,Python批量提取PPT文件中的图片

    在办公场景当中,同样也有这样一个需求,那就是快速批量把PPT文件中的图片提取出来,毕竟一个个点击另存为太过于繁琐,以及耗费时间,前面本渣渣分享过如何应用Python批量提取PDF文件中的图片,而这一篇本渣渣就为大家分享如何应用 言归正传,应用Python批量提取PPT文件中的图片有两种方式,一种是单纯的提取PPT文件中的图片,这种方法可能会存在图片文件缺失的情况,而第二种方法是直接将每一页PPT换成图片。 = 17 def ppt_to_jpg(ppt_file_name,output_dir_name): 将PPT另存为JPG格式 arguments: ppt_file_name: 要换的ppt文件的完整路径文件名 ,eg:F:testppt_name.ppt output_dir_name:换后的存放JPG文件的目录,以PPT的名字新建的目录,eg:F:testppt_name # 启动PPT ppt_app &PPT全部导出生成图片https:www.cnblogs.comxiaoqianginkp14486735.html相关阅读:Python脚本工具,PyMuPDF批量提取PDF文件中的图片······

    14420

    python 图片 pdf

    osimport sysfrom reportlab.lib.pagesizes import A4, landscapefrom reportlab.pdfgen import canvas遍历当前目录下所有的jpg 文件,并按照文件夹名称合并成pdf文档python 3.4.4图片文件用数字按顺序命名def conpdf():    #获取横向A4大小    (w, h) = landscape(A4)   #遍历当前目录     for root,dirs,files in os.walk(os.getcwd()):         #根据根目录名创建一个pdf        c = canvas.Canvas(os.path.basename (root)+.pdf, pagesize = landscape(A4))        #print(os.path.basename(root)+.pdf)    #用于存放jpg文件        jpg_list= ==.jpg:                #jpg_list.append(root + +p)                jpg_list.append(p)

    27420

    利用pythonPDF批量成图片

    因为工作上的需求,需要将PDF成图片,在网络上寻找了一些PDF图片的方法,但是如若想要免费使用的话,限制太多,如:限制换页数,像素过低等,干脆考虑使用python程序来实现一个批量PDF的操作 先介绍下程序具有的功能:在文件夹当中,自动识别PDF文件,然后会在该文件夹下面生成与PDF文件同名的文件夹,并将PDF化之后的图片存入同名文件夹内;同时可以调整生成的图片缩放比例(XY两轴),对图片进行任意角度的旋 # 设置图片的旋角度 zoom_x = 2 # 设置图片相对于PDF文件在X轴上的缩放比例 zoom_y = 2 # 设置图片相对于PDF文件在Y轴上的缩放比例 trans = fitz.Matrix 保证输出的文件名不变 pm.writeImage(new_full_name + + new_full_name + _ + str(page+1) + .png) # 该方法只支持输出png,当然如果重命名为jpg 并检查缩进格式是否正确,python要求代码的缩进均为制表符或者均为空格(4个),如果缩进格式不对,控制台将会报“IndentationError”错误。

    19310

    python将HTMLPDF

    使用python讲网页PDF。 想学习python某个模块,但是官网并不提供PDF版本,只有在线的网页说明文档,于是想将这些网页都下载下来然后pdf保存。 也就是说,HTML2PDF的工作是由wkhtmltox完成的,python只是调用了其接口而已。 1.安装wkhtmltox软件通过http:wkhtmltopdf.orgindex.html下载软件,注意版本对应,python 32位的对应wkhtmltox 32位版本。 2.将wkhtmltox的bin目录添加至path环境变量3.换import pdfkit # 有下面3中途径生产pdf pdfkit.from_url(http:google.com, out.pdf

    46110

    使用Python合并多张JPG图片为一个PDF文件

    功能描述:把多个jpg图片合并为一个pdf文件。 技术路线:把每张图片换为pdf文件,然后合并多个pdf文件为一个pdf文件。 实现步骤: 1、安装扩展库reportlab,指定国内源提高速度。?

    2K20

    使用Graphviz和Pyreverse

    使用Graphviz和Pyreverse绘制Python项目结构图简介Graphviz开源的图形绘制工具包Pyreverse分析Python代码和类关系的工具安装 安装Graphviz 官网下载地址 注意添加 Pyreverse 现在pyreverse已经集成到pylint, 直接安装pylint即可 pip install pylint 测试是否安装成功 pyreverse --help 使用Pyreverse分析Python 代码为例 pyreverse flask pyreverse会分析flask文件的代码并在当前目录下生成classes.dot和packages.dot两个dot格式的文件 使用Graphviz将dot文件换为图形格式 换为png格式 dot -Tpng -o classes.png classes.dot dot -Tpng -o packages.png packages.dot 也可以换为jpgpdf格式

    62410

    教你用一行Python代码识别裸体图片

    推荐阅读时间:5min~6min主题:Python 实现裸体图片识别有一种职业叫做:鉴黄师,这是一个令很多人羡慕嫉妒恨的职业,直白来说就是判断图片是不是色情图片。 今天我们交给大家如何使用 Python 来做识别裸体图片。 1安装工具安装 Python 依赖库:nudepypip install --upgrade nudepy2开始识别开始识别前我们先来看下要识别的几张图片:??? 将这三张图片分别命名为:1.jpg、2.jpg、3.jpg,接下来看些我们如何使用Python程序来识别它们。 往期精彩回顾BAT机器学习深度学习面试300题Numpy 精品系列教程汇总(你值得拥有)谷歌机器学习43条黄金法则(手册版+PDF)吴恩达|机器学习秘籍(Machine Learning Yearning

    88520

    利用Python协助解读CC++程序源码

    利用Python协助解读CC++程序源码 导语终于更新一个小的python项目来一起动手学习了,今天想看看Redis源码,可惜太慢太多,思维太乱,于是想到看是否用Python可以分析出这个源码直接的依赖关系 https:github.comLight-CityPyLookSrcRelation支持的功能目前支持如下功能:√输出定制,可输出pdf、png、jpg、svg等格式√是否展示出系统头文件√支持文件夹扫描所有依赖关系 -o参数为输出格式,默认值为pdf,可以选择png、svg等python pylsr.py -h usage: search.py Help you understand the source 示例1:读取文件夹,解析所有的cc++程序的头文件依赖关系,并输出pdf格式文件。python pylsr.py -d .src -o pdf ? 更多内容,请关注本公众号,欢迎发与订阅!

    21320

    PDF怎么编辑内容,两大简单方法教你轻松搞定

    准备文件:PDF文件操作教程:1、首先是运行这款迅捷PDF换器, 点击软件上方的“PDF换”点击之后可在点击左侧的“PDF换其他”然后点击下方的“文件Word”。 1.JPG 2、之后点击软件下方的“添加文件”或者是直接拖拽将PDF文件添加到软件中去,添加完成之后对换格式和换模式进行设置。 2.jpg 3、设置完成之后点击“开始换”等待一会当换的进度为满格的时候就是换成功了。 3.jpg换效果图换效果图.jpg 大家都知道当换成Word文档时想要对里面的内容进行编辑和修改都是再简单不过的事情啦。 03.jpgPDF编辑内容之后的效果图:换效果图.jpg以上呢给大家介绍的比较详细的两个简单的操作方法,这两个方法都是在办公中的你需要用到的,看完上面的步骤是不是觉得很简单呢?

    21850

    python图片pdf

    fileList):    img = Image.open( fileList.decode(UTF-8) )    c = canvas.Canvas(dstpath, img.size)#第一张图片的尺寸新建pdf fontheight)    #c.drawString(100, 300, u宋体宋体)    height=fontheight    num=1    for i in fileList:#标明本pdf height+=fontheight    c.showPage()     for i in fileList:        c.drawImage(i.decode(UTF-8), 0, 0)#换为中文路径名称打开         c.showPage()    c.save()def transferPdf(filePath,dstpath):#将一个目录下所有图片生成一个pdf    fileList= filePath = homechaoimg#源图片文件夹dstpath=homechaotmp1#换出的pdf文件夹存放地址transferPdf(filePath,dstpath)

    32310

    python脚本 Doc PDF

    有时候,python脚本就是香啊,省了下载安装软件的麻烦事,提高了工作效率。 ######################### word pdf######################## import osfrom win32com import client from import gencachefrom win32com.client import constants, gencache def createPdf(wordPath, pdfPath): wordpdf :param wordPath: word文件路径 :param pdfPath: 生成pdf文件路径 word = gencache.EnsureDispatch(Word.Application constants.wdDoNotSaveChanges)if __name__ == __main__: doc_name = C:Users14768Desktop1.docx fpt_name = C:Users14768Desktop1.pdf

    31930

    PDF 图片时丢字的一种可能解决方案

    问题PythonPDF 图片一般用的是 pdf2image。有时我们会发现 PDF 出来的图片都是空白,或者缺失了一些字,具体表现就是一些应该有字的区域是空白。 主要的代码如下:images = pdf2image.convert_from_path(pathtopdf, output_folder=images, fmt=jpg)运行时可能会发现代码没有任何异常 分析和解决其实 pdf2image 底层默认使用的是 pdftoppm 来图片,我们可以直接使用其来测试有问题的 PDF,会发现输出了一些警告: 除 pdftoppm 外,pdf2image 在两种情况下会使用 pdftocairo 来图片,具体是: 当要成 tiftiff 格式时当 transparent=True(默认为 False)且要成 pngtiftiff 时Missing language 而且字缺失,自然而然想到的是字体缺失,即系统中没有 PDF 中的字体。我们需要找到对应的字体,然后安装上。

    98370

    PythonPDF文件中每页内容分离为独立图片文件

    封面图片:《Python程序设计实验指导书》(ISBN:9787302525790),董付国,清华大学出版社 问题描述:把PDF文件换为若干JPG文件,每页一个图片。

    64061

    扫码关注云+社区

    领取腾讯云代金券