本文使用的python3.6版本。Python安装过程见:
Python 3.6.4下载安装以及Python文本编辑器SublimeText3下载、破解、汉化、环境搭配ctrl+B或f5运行程序- CSDN博客。https://blog.csdn.net/daycym/article/details/78872856
首先到https://pypi.python.org/pypi/pdfminer3k/下载解析pdf文档的库:pdfminer3k。pdfminer3k是从PDF文件中提取信息的工具,支持python3.4及以上版本(对应百度网盘分享文件中的pdfminer3k-1.3.1.tar.gz)。
Pdfminer3k允许在一个页面上获取文本的确切位置,以及其他信息,如字体或线条。它包括一个PDF转换器,它可以将PDF文件转换成其他文本格式(如HTML)。它有一个可扩展的PDF解析器,可以用于其他用途,而不仅仅是文本分析。
直接点击右侧的Download按钮,即可下载文件到本地。
下一步是将压缩文件解压。
进入解压后的文件夹,运行setup.py文件即可进行安装库。在\pdfminer3k-1.3.1\文件夹中,按住shift同时点击鼠标右键,选择“在此处打开命令窗口”。然后键入:python setup.py install,即可进行安装。此处需要注意的是,确保python这个命令能够调用python3.
安装过程中发生一项错误,如下图所示。
原因是没有正确读到pytest-3.5.0这个库。因此,需要安装pip库,从而python自己能够安装所缺少的库。安装步骤及方法同上(安装文件在网盘分享文件中的pip-9.0.3.tar.gz)。
在安装好pip库之后,再次回到\pdfminer3k-1.3.1\目录下,打开命令行窗口,输入python setup.py install,开始安装pdfminer3k库。
到此,表明已经正确安装好了pdfminer3k库。
下面是一个简单例子,用于将pdf文件转换为txt文本文件。
首先在桌面新建一个python文件:pdfminerExample.py。
同时在桌面上放置一个待处理的pdf文件:eetop.cn_systemverilog.pdf
待处理的Pdf文件如下图:
在pdfminerExample.py中写入如下代码(源码在网盘分享链接中):
运行后,在桌面上可见eetop.cn_systemverilog.txt文件。打开:
已经将pdf文件转换成为了txt文本。
领取专属 10元无门槛券
私享最新 技术干货