专栏首页python3python读取pdf文档-实战

python读取pdf文档-实战

# -*- coding: utf-8 -*-
#读取pdf文档
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
import pdfminer.pdfinterp


#获取文档对象
fp = open("naacl06-shinyama.pdf","rb")
#创建一个与文档关联的解释器
parser=PDFParser(fp)
#PDF文档对象
doc = PDFDocument()
#链接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档
doc.initialize("")

#创建pdf资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource,laparams=laparam)

#创建PDF页面解释器
interpreter=PDFPageInterpreter(resource,device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
    #使用页面解释器来读取
    interpreter.process_page(page)

    #使用聚合器来获取内容
    layout=  device.get_result()

    for out in layout:
        if hasattr(out,"get_text"):
            print(out.get_text())

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python读取pdf文档

    py3study
  • Django 惰性机制

    惰性机制:Publisher.objects.all()或者.filter()等都只是返回了一个QuerySet(查询结果集对象),它并不会马上执行sql,而是...

    py3study
  • Python 打包可执行文件

       Python程序需要依赖本机安装的Python库,若想在没有安装Python的机器上运行,则需要打包分发,目前有两个比较好用的工具:PyInstaller...

    py3study
  • jface databinding:延迟计算--ComputedValue和WritableList使用的例子

    版权声明:本文为博主原创文章,转载请注明源地址。 https://blog.csdn.net...

    用户1148648
  • Azure内容审查器之羞羞图审查

    上一篇 Azure 内容审查器之文本审查我们已经介绍了如果使用Azure进行文字内容的审核。对于社区内容,上传的图片是否含有羞羞内容也是需要过虑的。但是最为一般...

    kklldog
  • 沉淀半年,我又转回安全行业了

    大家好,我是 dbj1216,刚好这次把任务提交上去,基本的 web 路线任务都完成了,我的分数也恰好过了 100。在这里,我想总结一下这大半年在平台上的自我学...

    信安之路
  • (译)CSI 的内联暂存卷

    Kubernetes 利用外部存储驱动提供出来的存储卷一般来说都是持久化的,它的生命周期可以完全独立于 Pod,(特定情况下)也可以和第一个用到该卷的 Pod(...

    崔秀龙
  • 使用js的数据类型简单描述redis各个数据类型

    key:想在redis中创建任意数据都必须有一个名字,可以通过这个名字来操作这个数据,这篇说明里,这个名字被称为key

    黒之染
  • 开除了没情商的“技术大神”后,整个团队都好起来了

    “我创造的东西你们这辈子也别想弄明白,我就是爱因斯坦,你们就是那没进化完的猴子!”

    华章科技
  • java后端学习路线建议

    你是想要进大厂,还是想进小公司呢? 对于一个普通本科生,很可能真正步入学习的时间不多。并且能够掌握的知识的广度和深度也是有限度的,还要考虑学习环境的影响。要慎重...

    bigsai

扫码关注云+社区

领取腾讯云代金券