Python解析PDF你知道几种方法?这几种方法,你见过吗?

今天呢?小编给大家操作几种Python解析PDF方法。请大家认真看噢!不懂的请留言.........

PdfMiner的demo:

试用后发现PdfMiner更适合配合StringIO转出pdf文件中的文字类信息。这和我的需求不符,果断更换。

接着找到了PythonMagick,通过写demo发现能够顺利转出我需要的图,但是PythonMagick并没有方法可以获取pdf文件的页数,于是又找到了PyPdf2,PyPdf2的PdfFileReader中getNumPages()方法可以读取pdf文件页数。

PythonMagick的demo:

运行时,碰到错误1:

PyPDF2.utils.PdfReadError: Multiple definitions in dictionary at byte 0x4717c2 f or key /Info

通过查询,将严格模式关闭,PdfFileReader(input_stream,strict=False)可以解决。

文中所用到的包如下:

PythonMagick可以通过lfd.edu提供的镜像下载whl文件,比如我用的python2.7,64位windows,下载对应的是PythonMagick‑0.9.10‑cp27‑none‑win_amd64.whl。

安装方法,cmd进入whl文件所在目录,运行:

pip install PythonMagick‑0.9.10‑cp27‑none‑win_amd64.whl

PyPdf2可以使用pip直接安装。

pip install PyPdf2

PdfMiner可以在github里搜一下,关键字排名第一有2k star那个的就是。

在搜索过程中,还发现另外一种方法,使用ImageMagick与命令行进行转换

cmd进入pdf所在目录,运行:

magick convert 6p.pdf 6p.jpg

此方法能够将pdf自动按页转为jpg。

这几种方法你都知道了吗?谢谢你们的观看!!!谢谢

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181118A0HU3M00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券