前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Python提取PDF文件里的内容

使用Python提取PDF文件里的内容

作者头像
TalkPython
发布2019-05-24 16:41:01
3.5K0
发布2019-05-24 16:41:01
举报
文章被收录于专栏:TalkPythonTalkPython

PDF文件,是我们工作和学习中经常见到的文件。阅读体验非常好。 常用的Python操作PDF文件的第三方库,包含pyPdf、pyPdf2、pyPdf3、pyPdf4、pdfrw。

这次主要用pyPdf2来提取PDF文件属性信息,如:文件名、标题、作者、PDF创建者、页数。

一、安装

下面是如何用pip安装PyPDF2:

代码语言:javascript
复制
$ pip install pypdf2

安装非常快,因为PyPDF2没有任何依赖关系。现在让我们继续学习如何从PDF中提取一些信息。

二、提取内容

你可以使用PyPDF2从PDF中提取元数据和一些文本。当你对现有PDF文件执行某些类型的自动化时,这将非常有用。

让我们用PDF编写一些代码,学习如何访问这些属性:

代码语言:javascript
复制
from PyPDF2 import PdfFileReader

def extract_info(pdf_path):

    with open(pdf_path,'rb') as f:

        pdf = PdfFileReader(f)
        information = pdf.getDocumentInfo()
        number_of_pages = pdf.getNumPages()

    txt = f"""
    Information about {pdf_path}: 

    Author: {information.author}
    Creator: {information.creator}
    Producer: {information.producer}
    Subject: {information.subject}
    Title: {information.title}
    Number of pages: {number_of_pages}
    """

    print(txt)
    return information

如果觉得内容还不错,分享给更多朋友,一起提升编程技能。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 TalkPython 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、安装
  • 二、提取内容
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档