首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

利用python3翻译pdf文档系列之一——pdf转txt

本文使用的python3.6版本。Python安装过程见:

Python 3.6.4下载安装以及Python文本编辑器SublimeText3下载、破解、汉化、环境搭配ctrl+B或f5运行程序- CSDN博客。https://blog.csdn.net/daycym/article/details/78872856

首先到https://pypi.python.org/pypi/pdfminer3k/下载解析pdf文档的库:pdfminer3k。pdfminer3k是从PDF文件中提取信息的工具,支持python3.4及以上版本(对应百度网盘分享文件中的pdfminer3k-1.3.1.tar.gz)。

Pdfminer3k允许在一个页面上获取文本的确切位置,以及其他信息,如字体或线条。它包括一个PDF转换器,它可以将PDF文件转换成其他文本格式(如HTML)。它有一个可扩展的PDF解析器,可以用于其他用途,而不仅仅是文本分析。

直接点击右侧的Download按钮,即可下载文件到本地。

下一步是将压缩文件解压。

进入解压后的文件夹,运行setup.py文件即可进行安装库。在\pdfminer3k-1.3.1\文件夹中,按住shift同时点击鼠标右键,选择“在此处打开命令窗口”。然后键入:python setup.py install,即可进行安装。此处需要注意的是,确保python这个命令能够调用python3.

安装过程中发生一项错误,如下图所示。

原因是没有正确读到pytest-3.5.0这个库。因此,需要安装pip库,从而python自己能够安装所缺少的库。安装步骤及方法同上(安装文件在网盘分享文件中的pip-9.0.3.tar.gz)。

在安装好pip库之后,再次回到\pdfminer3k-1.3.1\目录下,打开命令行窗口,输入python setup.py install,开始安装pdfminer3k库。

到此,表明已经正确安装好了pdfminer3k库。

下面是一个简单例子,用于将pdf文件转换为txt文本文件。

首先在桌面新建一个python文件:pdfminerExample.py。

同时在桌面上放置一个待处理的pdf文件:eetop.cn_systemverilog.pdf

待处理的Pdf文件如下图:

在pdfminerExample.py中写入如下代码(源码在网盘分享链接中):

运行后,在桌面上可见eetop.cn_systemverilog.txt文件。打开:

已经将pdf文件转换成为了txt文本。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180329G0039H00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券