前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python批量提取PDF文件中的文本

Python批量提取PDF文件中的文本

作者头像
Python小屋屋主
发布2018-04-16 14:54:56
5.9K0
发布2018-04-16 14:54:56
举报
文章被收录于专栏:Python小屋Python小屋

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os

import sys

import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:

pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')

os.rename(pdf1, pdf)

print('='*30)

print(pdf)

txt = pdf[:-4] + '.txt'

exe = '"' + sys.executable + '" "'

pdf2txt = os.path.dirname(sys.executable)

pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '

try:

#调用命令行工具pdf2txt.py进行转换

#如果pdf加密过可以改写下面的代码

#在-o前面使用-P来指定密码

cmd = exe + pdf2txt + txt + ' ' + pdf

os.popen(cmd)

#转换需要一定时间,一般小文件2秒钟足够了

time.sleep(2)

#输出转换后的文本,前200个字符

with open(txt, encoding='utf8') as fp:

print(fp.read(200))

except:

pass

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
命令行工具
腾讯云命令行工具 TCCLI 是管理腾讯云资源的统一工具。使用腾讯云命令行工具,您可以快速调用腾讯云 API 来管理您的腾讯云资源。此外,您还可以基于腾讯云的命令行工具来做自动化和脚本处理,以更多样的方式进行组合和重用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档