展开

关键词

python pdf

# 从pdf中读取文本 # 写pdf # 加密解密pdf # 和平pdf,加水印 # pip install PyPDF2 %cd D:\python全站\office import PyPDF2 D: \python全站\office pdf_obj = open('coop.pdf', 'rb') pdf = PyPDF2.PdfFileReader(pdf_obj) pdf.numPages 3 ,从上文打开的pdf找出第二页,新鞋一个pdf pdf_writer = PyPDF2.PdfFileWriter() page = pdf.getPage(1) pdf_writer.addPage( page) with open('coop-1.pdf', 'wb') as f: pdf_writer.write(f) pdf_obj.close() # 加密pdf with open(' ('coop-s.pdf', 'rb') as f_in: pdf = PyPDF2.PdfFileReader(f_in) print(pdf.isEncrypted) pdf.decrypt

39920

Python处理PDF及生成多层PDF

Python提供了众多的PDF支持库,本文是在Python3环境下,试用了两个库来完成PDF的生成的功能。PyPDF对于读取PDF支持较好,但是没找到生成多层PDF的方法。 Reportlab 生成双层PDF 双层PDF应用PDF中的Canvas概念,先画文字,最后将图片画上去,这样就是两层的PDF。 ./42.png" # Use Canvas to generate pdf c = canvas.Canvas('reportlab_canvas.pdf', pagesize=letter) width 1.0 2、PyPDF 2 3、PyPDF2 Homepage 4、PyPDF2 Documentation 5、python name 'file' is not defined的解决办法 6、ReportLab 7、用Python/reportlab生成PDF 8、Writing Pdf with Python: Add image

59920
  • 广告
    关闭

    什么是世界上最好的编程语言?丨云托管征文活动

    代金券、腾讯视频VIP、QQ音乐VIP、QB、公仔等奖励等你来拿!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    python 图片转 pdf

    reportlab.lib.pagesizes import A4, landscape from reportlab.pdfgen import canvas ''' 遍历当前目录下所有的jpg文件,并按照文件夹名称合并成pdf 文档 python 3.4.4 图片文件用数字按顺序命名 ''' def conpdf():     #获取横向A4大小     (w, h) = landscape(A4)    #遍历当前目录     for root,dirs,files in os.walk(os.getcwd()):          #根据根目录名创建一个pdf         c = canvas.Canvas(os.path.basename (root)+".pdf", pagesize = landscape(A4))         #print(os.path.basename(root)+".pdf")     #用于存放jpg文件

    36020

    python图片转换pdf

    /home/chao/anaconda3/envs/test_py2/bin/python #coding:utf-8 import os import sys from reportlab.lib.pagesizes     img = Image.open( fileList[0].decode('UTF-8') )     c = canvas.Canvas(dstpath, img.size)#第一张图片的尺寸新建pdf fontheight)     #c.drawString(100, 300, u'宋体宋体')     height=fontheight     num=1     for i in fileList:#标明本pdf 0)#转换为中文路径名称打开         c.showPage()     c.save() def transferPdf(filePath,dstpath): #将一个目录下所有图片生成一个pdf fileList)                 fileList=[] filePath = "/home/chao/img"#源图片文件夹 dstpath="/home/chao/tmp1"#转换出的pdf

    41310

    Python面试指南.PDF

    随着编程的普及,很多岗位都要求掌握Python这门语言,身边也有不少小伙伴问我要一些关于Python基础/框架资料以及面试题库。把某厂工程师整理的一手资料分享给大家。 Python葵花宝典 这份资料还是比较全的,从Python的基础到进阶的面试题,Flask、Django等框架,以及爬虫、数据分析知识,还有关于面试的硬实力:算法、数据库等方面有涉及,所以无论你是找Python 工程师还是找要求会Python语言的岗位,这份资料你必须收好,同时我也希望他能够帮助到你。

    25731

    Python处理PDF

    Python处理PDF格式数据的笔记。 PDF处理的高频需求有:读取、写入、格式转换(pdf提取文本写入txt、根据url写入pdf等) 、批处理(多个pdf合并为1个、切分pdf)等等。 查了下相关资料,Python操作PDF的库有(只是应用的话肯定不至于造轮子从二进制数据开始读):pdfminer、pdfminer3k、PyPDF、PyPDF2、pdf2htmlex、pdf2image 可用的pdf库 用pdf2合并和切分PDF 比较几个库之后打算先从PyPDF2快速实现一些功能。 m_pdf.merge(1,'ipynb2pdf.pdf',pages=(0,1)) #可以省略用open打开的操作m_pdf.write(open('zz-pdf-marker-7.pdf','wb'

    89960

    Python添加pdf水印

    1、创建水印PDF。 2)、创建图片水印pdf。 , pdf_file_out):     pdf_output = PdfFileWriter()     input_stream = file(pdf_file_in, 'rb')     pdf_input '     # 获取PDF文件的页数     pageNum = pdf_input.getNumPages()     #读入水印pdf文件     pdf_watermark = PdfFileReader 可参考:用PDFlib给PDF添加水印(Python

    72810

    Python PDF转图片

    # pip install PyMuPDF -i https://pypi.douban.com/simple def pyMuPDF_fitz(pdfPath, imagePath): pdf_doc = fitz.open(pdfPath) for pg in range(pdf_doc.pageCount): page = pdf_doc[pg] rotate pix.save(imagePath + '/' + 'images_%s.png' % pg) # 将图片写入指定的文件夹内 if __name__ == "__main__": # 1、PDF 地址 pdfPath = 'file.pdf' # 2、需要储存图片的目录 imagePath = './' pyMuPDF_fitz(pdfPath, imagePath

    6110

    python pdf 转 image

    前言 最近项目需要pdf中提取内容,pdf是扫描版,想通过转成图片,通过图像识别区分出段落,然后进行ocr识别,得到结构化数据 所以第一步需要搞定的就是pdf转图片了 环境:Mac 10.12.6 (16G29 >> ~/.bash_profile echo 'export PATH="$MAGICK_HOME/bin:$PATH"' >> ~/.bash_profile pip install Wand python 脚本 from wand.image import Image # Converting first page into JPG with Image(filename="/thumbnail.pdf

    3.2K430

    python解析PDF表格

    通过看别人写的博客,发现python里面有关PDF解析的通常有以下四种: pdfminer,擅长仅仅是文字的解析,本小白试过了,是把表格解析成普通的文本,还经常会伴随一些莫名奇妙的不认识的符号。 这个方案pass掉 pdf2html,看例是把pdf解析成html,但是html的标签并没有规律,解析一个还行,但是本小白是许多的pdf文档下小标题的表格,这个方案直接pass掉 tabula 前提是是需要安装ImageMagick的 方案1:tabula import tabula # Read pdf into DataFrame df = tabula.read_pdf(". /P26.pdf",pages=str(1)) print(df) 这个直接返回的是一个数据帧,所以就直接是结构化的数据啦! /P26.pdf") p0 = pdf.pages[0]#注意此处的pages是一个列表,索引是从0开始的 table = p0.extract_table() df = pd.DataFrame(table

    40810

    Python读取PDF内容

    1,引言 晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。 从而产生了一个问题:用Python爬虫的话,能做到什么程度。下面将讲述一个实验过程和源代码。 2,把pdf转换成文本的Python源代码 下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。 3,展望 这个实验只是把pdf转换成了文本,但是没有像开头所说的转换成html标签,那么在Python编程环境下是否有这个能力,留待今后探索。 4,集搜客GooSeeker开源代码下载源 1.  GooSeeker开源Python网络爬虫GitHub源 5,文档修改历史 2016-05-26:V2.0,增补文字说明 2016-05-29:V2.1,增加第六章:源代码下载源,并更换github源的网址

    85530

    python读取pdf文档

    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp pdfminer.pdfdevice import PDFDevice import pdfminer.pdfinterp #获取文档对象 fp = open("naacl06-shinyama.pdf ","rb") #创建一个与文档关联的解释器 parser=PDFParser(fp) #PDF文档对象 doc = PDFDocument() #链接解释器和文档对象 parser.set_document (doc) doc.set_parser(parser) #初始化文档 doc.initialize("") #创建pdf资源管理器 resource = PDFResourceManager() #参数分析器 laparam = LAParams() #创建一个聚合器 device = PDFPageAggregator(resource,laparams=laparam) #创建PDF页面解释器

    23410

    python 创建PDF文件

    1.安装reportlab库 http://www.reportlab.com/ftp/ ubuntu可以直接 apt-get install python-reportlab 2.实验 >>> from  reportlab.pdfgen import canvas >>> def hello():     c = canvas.Canvas("hello World.pdf")  //指定pdf目录和文件名 subprocess.Popen("dir",shell=True,stdout=subprocess.PIPE)     return p.stdout.readlines()  >>> def create_pdf (input,output="dir_report.pdf"):     now = datetime.datetime.today()     date = now.strftime("%h %d % ))     c.drawText(textobj)     c.showPage()     c.save()       >>> report = dir_report() >>> create_pdf

    35420

    python使用pdfkit生成pdfpython

    /result.pdf') 或者 pdfkit.from_file(1.html, '. /result.pdf') 2.测试运行 运行python3 test.py后报错 If this file exists please check that this process can read Otherwise please install wkhtmltopdf - https://github.com/JazzCore/python-pdfkit/wiki/Installing-wkhtmltopdf 缺少:wkhtmltopdf 进行安装 yum install wkhtmltopdf github地址:https://github.com/JazzCore/python-pdfkit/wiki -s /usr/bin/wkhtmltopdf.sh /usr/local/bin/wkhtmltopdf 启动Xserver :wkhtmltopdf http://www.baidu.com a.pdf

    36830

    python生成pdf报告、python实现html转换为pdf报告 原

    centos 6.10 import pdfkit pdfkit.from_url('http://google.com','out.pdf') pdfkit.from_file('test.html ','out.pdf') pdfkit.from_string('Hello!' ,'out.pdf') 系统安装wkhtmltopdf:参考 https://github.com/JazzCore/python-pdfkit/wiki/Installing-wkhtmltopdf

    81610

    使用Python生成pdf文件

    Python平台的优秀PDF报表类库Reportlab。 它不属于Python的标准类库,所以必须手动下载类库包并安装:       yum install python-reportlab -y     这篇文章将介绍reportlab中基本常用的api, 使用canvas画出一份整洁的PDF报表。 /usr/bin/python from reportlab.pdfgen import canvas def hello():     c = canvas.Canvas("helloworld.pdf (input,output="/var/www/device/check_pdf/"+filename+".pdf"):      now = datetime.datetime.today()

    1.8K10

    使用Python拆分、合并PDF

    知识点 使用Python操作PDF! 主要内容有:1、PDF拆分;2、PDF合并。 在工作中,难免会和PDF打交道,所以掌握一点处理PDF的技能非常有必要,本文将介绍几个常用的功能。 PDF拆分 很多时候,获取的PDF很长,我们如果想要截取其中某些页面那么怎么处理呢?有很多的工具可以完成类似的操作,我们用Python也能做到类似的事情。 并且用Python来做类似的处理,非常便于我们后面做一些批处理工具。 直接上代码吧! ,结束页 pdf_manage(pi, po, s, e) PDF合并 与pdf拆分相对的,是pdf的合并。 使用Python也能轻松完成,不早了,不废话了,还是直接上代码吧!

    1.3K30

    python提取pdf文本内容

    /pdf文本处理/12.pdf' pdf2TxtManager = CPdf2TxtManager() pdf2TxtManager.changePdfToText(path) from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage import requests,os,re try:#python3 from io import StringIO from urllib.request import urlopen except:#python2 from urllib import " pdf_file = urlopen(url).read() # 也可以换成本地pdf文件,用open rb模式打开 # pdf_file = requests.get (url).content # 加载内存的方式 convert_pdf_to_txt(pdf_file, "123.txt") else:

    1.4K20

    python脚本 Doc 转 PDF

    有时候,python脚本就是香啊,省了下载安装软件的麻烦事,提高了工作效率。 ######################## # word 转 pdf ######################## import os from win32com import from win32com.client import constants, gencache def createPdf(wordPath, pdfPath): """ word转pdf :param wordPath: word文件路径 :param pdfPath: 生成pdf文件路径 """ word = gencache.EnsureDispatch _": doc_name = "C:\\Users\\14768\\Desktop\\1.docx" fpt_name = "C:\\Users\\14768\\Desktop\\1.pdf

    51030

    Python 编辑 PDF 文件

    PyPDF2 在 Python 中,用于处理 PDF 文件的库有很多,比如: pdfrw slate PDFQuery pdfminer pdfplumber 以上列举的几个是比较典型的库,此外还有很多 = page_one.extractText() # 最后的 extractText() 将第一页的内容解析为文本 写文件 不能使用 Python 编写 PDF 文件,因为 Python 的字符串与 对 PDF 文件,能称之为“写”的操作,只能是将某个指定的 PDF 页面追加到已有 PDF 文件中。 pdf_text.append(page.extractText()) 现在,可以通过 pdf_text 的切片打印相应页面的内容,例如 print(pdf_text[1]) ,会将 PDF 文件的第 在 aistudio.baidu.com 中有专门探讨从 word 文档、PDF 文档中读取文本的多种方法的项目,可以参考 参考资料 齐伟. Python 大学实用教程.

    56830

    相关产品

    • Serverless HTTP 服务

      Serverless HTTP 服务

      Serverless HTTP 基于腾讯云 API 网关平台,为互联网业务提供 0 配置、高可用、弹性扩展的对外 RESTful API 能力,支持 swagger/ openAPI 等协议。便于客户快速上线业务逻辑,通过规范的 API 支持内外系统的集成和连接。

    相关资讯

    热门标签

    扫码关注腾讯云开发者

    领取腾讯云代金券