前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何将pdf转换为word 3.0

如何将pdf转换为word 3.0

作者头像
生信菜鸟团
发布2020-08-04 10:07:14
1.7K0
发布2020-08-04 10:07:14
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

之前我们推荐过多个不同转换方法,标题就顺着来,大家可以拣自己方便的使。

python大法

Python中已经有很多现成可以使用包或者代码了,简单上手:

  1. pdf2word
代码语言:javascript
复制
    git clone git@github.com:simpleapples/pdf2word.git
    pip install -r requirements.txt
    python main.py
  1. pdfminer3k
代码语言:javascript
复制
    # 安装
    pip install pdfminer3k

使用起来相对来说麻烦一点,基础用法如下:

代码语言:javascript
复制
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# Open a PDF file.
fp = open('test.pdf', 'rb')
# Create a PDF parser object associated with the file object.
parser = PDFParser(fp)
# Create a PDF document object that stores the document structure.
# Supply the password for initialization.
document = PDFDocument(parser, password)
# Check if the document allows text extraction. If not, abort.
if not document.is_extractable:
    raise PDFTextExtractionNotAllowed
# Create a PDF resource manager object that stores shared resources.
rsrcmgr = PDFResourceManager()
# Create a PDF device object.
device = PDFDevice(rsrcmgr)
# Create a PDF interpreter object.
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Process each page contained in the document.
for page in PDFPage.create_pages(document):
    interpreter.process_page(page)

使用软件

相对于封装的软件,python和R的操作需要稍微折腾一下。浏览论坛的时候的发现了一款轻量级程序,尝试了一下还不错,看一下转换的效果:

相较于在线有部分限制的使用方式,软件提供更好的隐私性及转换效率。除了转换格式外,该软件还支持:

.PDF压缩 .PDF转word/excel/ppt/图片 .PDF文件中图片提取 .PDF文件合并/拆分 .OCR文字识别 .PDF文件去水印 .图片转PDF

软件下载地址回复【uPDF下载】即可获得。

原作者的几点说明: 1、关于报毒:程序做了加密和打包,绿色单文件,无需安装,方便携带,无毒,火绒测试通过,报毒的自行判断。 2、关于软件无法启动:多属于系统环境问题,win7 和 win10 都测试通过,如果启动不了,可能是系统缺少运行库,可按提示自行解决。 3、软件免费使用,没有任何水印、页数限制或试用期限制,严禁倒卖,或者反编译后加入收费功能。

Word转PDF

上期我们通过 python-docx 包操作word文档,要将word再转回PDF,可以使用另一个包docx2pdf,代码很精简。

代码语言:javascript
复制
from docx2pdf import convert
convert("input.docx", "output.pdf")

其实导出pdf格式不难,如果还有什么操作PDF的好方法欢迎大家在留言区讨论,我们下期见。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • python大法
  • 使用软件
  • Word转PDF
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档