前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PDF转化为TXT简单工具(适合程序员使用)

PDF转化为TXT简单工具(适合程序员使用)

作者头像
程裕强
发布2022-05-06 19:57:20
2760
发布2022-05-06 19:57:20
举报

支持python3版本的pdfminer,请参见 https://pypi.python.org/pypi/pdfminer3k/

1、下载pdfminer

http://www.unixuser.org/~euske/python/pdfminer/ 然后解压缩

代码语言:javascript
复制
[root@node1 ~]# unzip pdfminer-master.zip   
[root@node1 ~]# cd pdfminer-master

2、安装pdfminer

(1)python2.x pdfminer提示需要python2.x环境 Install Python 2.4 or newer. (Python 3 is not supported.)

代码语言:javascript
复制
[root@node1 ~]# python --version
Python 2.6.6
[root@node1 ~]#

(2)安装pdfminer

代码语言:javascript
复制
[root@node1  pdfminer-master]# ls
cmaprsrc  docs  LICENSE  Makefile  MANIFEST.in  pdfminer  README.md  samples  setup.py  tools
[root@node1  pdfminer-master]# python setup.py install
/usr/lib64/python2.6/distutils/dist.py:266: UserWarning: Unknown distribution option: 'install_requires'
  warnings.warn(msg)
running install
running build
running build_py
creating build

running install_scripts
copying build/scripts-2.6/pdf2txt.py -> /usr/bin
copying build/scripts-2.6/dumppdf.py -> /usr/bin
copying build/scripts-2.6/latin2ascii.py -> /usr/bin
changing mode of /usr/bin/pdf2txt.py to 755
changing mode of /usr/bin/dumppdf.py to 755
changing mode of /usr/bin/latin2ascii.py to 755
running install_egg_info
Writing /usr/lib/python2.6/site-packages/pdfminer-20140328-py2.6.egg-info
[root@node1  pdfminer-master]# 

3、pdf转化txt测试

代码语言:javascript
复制
[root@node1  ~]# pdf2txt.py a.pdf > a.txt
[root@node1  ~]# cat a.txt
工 作 简 报  
第 2 期(总第 2 期) 
送:各普通会员单位 
[root@node1  ~]# 
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、下载pdfminer
  • 2、安装pdfminer
  • 3、pdf转化txt测试
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档