开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用Python读取PDF文件中的内容

Python是一种高级编程语言，广泛应用于各个领域，包括云计算。在云计算中，Python可以用于读取PDF文件中的内容。

PDF（Portable Document Format）是一种用于传输和存储电子文档的文件格式。它可以包含文本、图像、表格等多种类型的内容，并且可以在不同操作系统和设备上保持一致的显示效果。

要用Python读取PDF文件中的内容，可以使用第三方库PyPDF2。PyPDF2是一个用于处理PDF文件的Python库，可以提取文本、图像和元数据等信息。

以下是使用Python和PyPDF2库读取PDF文件内容的示例代码：

import PyPDF2

def read_pdf(file_path):
    with open(file_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        num_pages = pdf_reader.numPages

        content = ''
        for page_num in range(num_pages):
            page = pdf_reader.getPage(page_num)
            content += page.extractText()

        return content

file_path = 'path/to/your/pdf/file.pdf'
pdf_content = read_pdf(file_path)
print(pdf_content)

在上面的代码中，首先导入了PyPDF2库。然后定义了一个read_pdf函数，该函数接受一个PDF文件路径作为参数，并返回PDF文件中的文本内容。

在函数内部，使用open函数打开PDF文件，并以二进制模式读取文件内容。然后创建一个PdfFileReader对象，用于读取PDF文件。通过numPages属性获取PDF文件的总页数。

接下来，使用一个循环遍历每一页，使用getPage方法获取每一页的内容，并使用extractText方法提取文本内容。将每一页的文本内容拼接到content变量中。

最后，返回拼接后的文本内容。

你可以将上述代码保存为一个Python脚本，然后运行该脚本，传入你要读取的PDF文件路径，即可获取PDF文件中的内容。

对于PDF文件的读取，可以应用于各种场景，例如：

文档处理：可以将PDF文件中的文本内容提取出来，进行文本分析、关键词提取、语义分析等操作。
数据抽取：可以从PDF文件中提取结构化数据，如表格数据、图表数据等，用于后续的数据分析和处理。
自动化办公：可以通过读取PDF文件中的内容，实现自动化的文档处理、报告生成等任务。

腾讯云提供了一系列与云计算相关的产品和服务，其中包括与PDF文件处理相关的服务。你可以参考以下腾讯云产品和服务：

腾讯文档识别（https://cloud.tencent.com/product/ocr）：提供了OCR（Optical Character Recognition）技术，可以将PDF文件中的文字内容识别出来，支持多种语言和文件格式。
腾讯云对象存储（https://cloud.tencent.com/product/cos）：提供了可靠、安全的对象存储服务，可以用于存储和管理PDF文件。
腾讯云函数计算（https://cloud.tencent.com/product/scf）：提供了无服务器计算服务，可以将上述的PDF读取代码封装成一个函数，并通过触发器实现自动化的PDF文件处理。

以上是关于用Python读取PDF文件中的内容的完善且全面的答案，希望对你有帮助。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

用 Python 编辑 PDF 文件

本文将说明如何使用 PyPDF2 以及正则表达式操作 PDF 文件，并从中提取有关信息。

03

PPT自动化处理

添加幻灯片slide add_slide(prs.slide_layouts[0])

01

爬虫系列：读取 CSV、PDF、Word 文档

上一期我们讲解了使用 Python 读取文档编码的相关问题，本期我们讲解使用 Python 处理 CSV、PDF、Word 文档相关内容。

02

解决python中的UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u26ab‘问题

控制台报错UnicodeEncodeError: 'gbk' codec can't encode character '\u26ab' in position 834: illegal multibyte sequence。

06

Python 操作pdf(pdfplumber读取PDF写入Exce)

PDF是Portable Document Format的缩写，这类文件通常使用.pdf作为其扩展名。在日常开发工作中，最容易遇到的就是从PDF中读取文本内容以及用已有的内容生成PDF文档这两个任务。

01

一文贯通python文件读取

不论是数据分析还是机器学习，乃至于高大上的AI，数据源的获取是所有过程的入口。数据源的存在形式多为数据库或者文件，如果把数据看做一种特殊格式的文件的话，即所有数据源都是文件。获得数据，就是读取文件的操作，文件有各种各样的格式即数据的组织形式，如何方便快捷地获取文件中的内容呢？

02

太方便了！利用Python对批量Pdf转Word

在wps或者office里面可以将pdf转word，不过只能免费转前面5页，超过5页就需要会员。今天教大家一个Python办公小技巧：批量Pdf转Word ，这样可以自由想转多少页都可以。

01

实用干货：7个实例教你从PDF、Word和网页中提取数据

导读：本文的目标是介绍一些Python库，帮助你从类似于PDF和Word DOCX 这样的二进制文件中提取数据。我们也将了解和学习如何从网络信息源（web feeds）（如RSS）中获取数据，以及利用一个库帮助解析HTML文本并从文档中提取原始文本。

03

软件测试|教你用Python处理PDF文件（二）

上一篇文章我们介绍了Python使用pypdf2实现读取PDF文件的文本内容，合并PDF文件，以及为PDF文件添加水印，本篇文章我们来介绍使用Python实现对PDF文件的加密解密。

02

零代码编程：用ChatGPT对PDF文件标题进行重命名

F:盘的“北交所招股说明书”文件夹下面有很多个PDF文件，但是下载的时候只是根据URL中的文件地址来命名，只是一串数字，看不出和内容的关系。

01

教你用Python 操作 PDF 的几种方法

作者 | 陈熹来源 | 早起Python（ID:zaoqi-python） 01 前言大家好，有关 Python 操作 PDF 的案例之前已经写过一个?PDF批量合并，这个案例初衷只是给大家

01

告别手动编辑：9个Python库让PDF操作自动化

大家好，这里是程序员晚枫，2年前发布了一个开源项目：python-office，目前在GitHub上有800+⭐，最近在开发新功能时感觉Python知识有点不够用了。

01

软件测试|教你用Python处理PDF文件（一）

我们在工作中，难免会遇到需要处理PDF文件的情况，PDF文件与Word文件不同，内容提取不是很容易，表格和图片都需要特别处理。不过PDF有一个优势，PDF可以跨平台使用，Windows系统，Mac系统都可以打开PDF文件，不像doc文件，需要在word或者类似的软件中才能打开。

02

60行Python代码，实现多线程PDF转Word

工作中经常会遇到需要提取PDF文件中文字的情况，一个PDF还好，复制粘贴一下也花不了太多时间，如果需要把大量PDF转为Word，怎么办呢？

03

60行Python代码，实现多线程PDF转Word

工作中经常会遇到需要提取PDF文件中文字的情况，一个PDF还好，复制粘贴一下也花不了太多时间，如果需要把大量PDF转为Word，怎么办呢？

03

Python 合并 Excel 表格

之前曾尝试用 Python 写过整理 Excel 表格的代码，记录在《Python 自动整理 Excel 表格》中。当时也是自己初试 pandas，代码中用到的也是结合需求搜索来的 merge 方法实现两个表格的“融合”，现在看来也不算复杂。起初没什么人看，也没留意；最近很意外地被几位朋友转载了去，竟也带着原文阅读破千了，吸引了不少新的关注。

01

办公利器！用Python快速将任意文件转为PDF

相信大家都会遇到一种场景。老师/上司要求你把某个文件转为pdf，并且是一批（不止一个，一个的话手动就可以搞定），并且这种是枯燥无聊的工作，既没有什么技术含量又累。

03

太方便了！利用Python对批量Pdf转Word

在wps或者office里面可以将pdf转word，不过只能免费转前面5页，超过5页就需要会员。今天教大家一个Python办公小技巧：批量Pdf转Word ，这样可以自由想转多少页都可以。

00

Python巧妙操作PDF文档

PDF（Portable Document Format）是一个通用文件格式，几乎可以在所有操作系统和设备上阅读。PDF 文件可以包含包括文本、图片、图形、表格、链接、多媒体等各种内容，具有高度的可读性和可编辑性，适用于各种文档形式的存储和传输。PDF 文件支持加密和数字签名保护机制，确保了文件的安全性。PDF 文件可以被搜索、复制、打印，方便办公和学习使用。

01

Python 办公小助手：修改 PDF 中的表格

日常工作中，我们或多或少都会接触到 Excel 表格、Word 文档和 PDF 文件。偶尔来个处理文件的任务，几个快捷键操作一下——搞定！但是，偏偏有些烦人的工作，操作繁琐且数据复杂，更要命的是耗时间，吭哧吭哧一下午却难出几个成果。

02

Python自动化（二十） | 聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

一、前言大家好，有关Python操作PDF的案例之前已经写过一个?PDF批量合并，这个案例初衷只是给大家提供一个便利的脚本，并没有太多讲解原理,其中涉及的就是PDF处理很实用的模块PyPDF2，本文

02

最全总结！聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

一、前言大家好，有关Python操作PDF的案例之前已经写过一个?PDF批量合并，这个案例初衷只是给大家提供一个便利的脚本，并没有太多讲解原理,其中涉及的就是PDF处理很实用的模块PyPDF2，本文

02

python读取pdf文件

使用python读取pdf文件的内容读取第1页的内容： import PyPDF2 pdfFileObj = open('a.pdf', 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) print(pdfReader.numPages) pageObj = pdfReader.getPage(0) print(pageObj.extractText()) 输出该pdf文件共有多少页，并输出该pdf的第1页的内容。读取第1-100页的内容： impo

02

零代码编程：下载的PDF文件自动批量重命名

从arxiv或者一些其他网站下载的PDF文件，标题只是创建时间，看不出里面内容是什么，要一个个打开看非常麻烦。

01

Python提取多个pdf首页合并输出

前面小编给大家分享过R如何提取，合并pdf文件，今天在给大家分享一下如何用python来实现。

03

办公利器！用Python快速将任意文件转为PDF

痛点：相信大家都会遇到一种场景。老师/上司要求你把某个文件转为pdf，并且是一批（不止一个，一个的话手动就可以搞定），并且这种是枯燥无聊的工作，既没有什么技术含量又累。

01

Python 绝招：解锁小红书信息流的无限潜力！

相信近两年大家经常会听到「信息差」这个词，它确实可以为个人带来竞争优势，并提高个人决策的质量。与此同时，积极获取信息差也是一种重要的能力

03

零基础学编程019：生成群文章目录

在2016年10月底，我建立了“分享与成长群”，每人在每月都要输出一篇原创文章，一开始人数不多，汇总成PDF的工作量并不大，但现在人数已经超过70人了，该写个程序来解决这种重复性的工作了。最终问题描

06

Python 自动化指南（繁琐工作自动化）第二版：十五、使用 PDF 和 WORD 文档

幸运的是，有 Python 模块可以让您轻松地与 PDF 和 Word 文档进行交互。本章将介绍两个这样的模块：PyPDF2 和 Python-Docx。

05

Python办公自动化 | word 文本转 excel

近日有工作上的需求，需要梳理数据元目录中的多个数据项，数据项条目可能达到1000多个，可以说这个工作量非常巨大，源文件是 word 版本的，无法进行筛选和标记（即使用颜色或者字体去标记之后，每次也需要肉眼去看某一项到底有没有梳理过），如果是 excel 版本就不一样了，已梳理和未梳理的可以很简单的完成分类，并且和其他文件进行比对，用以核实是否已经梳理过。

02

利用Python将. pdf电子书籍转换成音频有声读物

有没有发现一个生活中的现象，我们很少有时间去真正读一些存放在电脑或者ipad上的pdf书籍。我们打算读这些书，但从来没有读过。所以我们为什么不用Python把它们做成有声书，一边听一边做别的事情呢？

02

这52页pdf，顶10篇python自动化办公文章

发现很多读者对python自动化办公（python操作Excel、Word、PDF）的文章都很喜欢，并希望能够应用到工作中去。

02

AI 技术讲座精选：如何利用 Python 读取数据科学中常见几种文件？

前言如果你是数据行业的一份子，那么你肯定会知道和不同的数据类型打交道是件多么麻烦的事。不同数据格式、不同压缩算法、不同系统下的不同解析方法——很快就会让你感到抓狂！噢！我还没提那些非结构化数据和半结构化数据呢。对于所有数据科学家和数据工程师来说，和不同的格式打交道都乏味透顶！但现实情况是，人们很少能得到整齐的列表数据。因此，熟悉不同的文件格式、了解处理它们时会遇到的困难以及处理某类数据时的最佳／最高效的方法，对于任何一个数据科学家（或者数据工程师）而言都必不可少。在本篇文章中，你会了解到数据科学家

04

Python读取PDF内容

1，引言晚上翻看《Python网络数据采集》这本书，看到读取PDF内容的代码，想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。从而产生了一个问题：用Python爬虫的话，能做到什么程度。下面将讲述一个实验过程和源代码。 2，把pdf转换成文本的Python源代码下面的python源代码，读取pdf文件内容(互联网上的或是本地的)，转换成文本，打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串，然后用StringIO转换成文件对象。（源代码下载地址参看文章末尾的GitHub源）

03

【合合TextIn】智能文档处理系列—电子文档解析技术全格式解析

在当今的数字化时代，电子文档已成为信息存储和交流的基石。从简单的文本文件到复杂的演示文档，各种格式的电子文档承载着丰富的知识与信息，支撑着教育、科研、商业和日常生活的各个方面。随着信息量的爆炸性增长，如何高效、准确地处理和分析这些电子文档，已经成为信息技术领域面临的一大挑战。在这一背景下，电子文档解析技术应运而生，并迅速发展成为智能文档处理技术中的一个关键组成部分。

01

手把手 | 20行Python代码教你批量将PDF转为Word

大数据文摘作品投稿作者｜丁彦军在日常工作或学习中，经常会遇到这样的无奈： “小任，你把这个PDF中的文件码出来发我” 艹，倒霉，2M的PDF12点也完不了啊！很多时候在学习时发现许多文档都是PDF格式，PDF格式却不利于学习使用，因此需要将PDF转换为Word文件，但或许你从网上下载了很多软件，但只能转换前五页（如WPS等），要不就是需要收费，那有没有免费的转换软件呢？ so，我们给各位带来了一个免费简单快速的方法，手把手教你用Python批量处理PDF格式文件，获取自己想要的内容，存为word形式。

05

软件测试|教你用Python处理PDF文件（四）

之前我们介绍了从PDF文件中提取文本内容以及从PDF文件提取图片的方法，除了文本内容与图片，表格也PDF文件中常见的内容，提取表格内容时，我们不再使用PyPDF2库来实现操作，Python有多个库来实现提取表格内容，本文我们将分别介绍多个库提取PDF中表格的操作。

02

python自动化办公——python操作Excel、Word、PDF集合大全

本文是鉴于有些粉丝的工作需求，有时候需要遇到这些文件的处理。因此，我写了一个文章集合，供大家参考，整篇文章已经整理成册(如下图所示)。由于文档获取人数太多，大家如有需求，请关注公众号：【数据分析与统计学之美】，回复关键词：【自动化文档】！

00

Python是如何实现PDF文本与图片的提取的？

从PDF中提取内容能帮助我们获取文件中的信息，以便进行进一步的分析和处理。此外，在遇到类似项目时，提取出来的文本或图片也能再次利用。要在Python中通过代码提取PDF文件中的文本和图片，可以使用 Spire.PDF for Python 这个第三方库。具体操作方法查阅下文。

04

Python玩转PDF文档的各种实用操作

今天小编为大家分享如何用Python来玩转PDF文档，例如提取当中的部分内容并导出，给PDF文件添加水印，合并多份PDF文件等等，而本文会着重用到PyPDF2模块来玩转PDF文档，以及tabula模块来对PDF文档中的表格数据进行读取

01

AI金融投资：批量下载巨潮资讯基金招募说明书

"adjunctUrl": "finalpage/2024-06-08/1220300147.PDF",

01

零代码编程：用ChatGPT将PDF文件的表格批量转为Excel表格

电脑中有几百个PDF文件，文件内容格式一致，每个PDF文件第一页是一个表格。想把这几百个PDF文件里面的表格都提取出来，转为excel表，该怎么办？

01

深度盘点丨史上最全的Python自动化办公库（34个）

社区的小伙伴们大家好，我是你们的新朋友牛稳稳。今天继续给大家分享我花了将近2周时间整理的Python自动化办公库。

03

Python处理CSV,Excel,PD

逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。

02

3行代码将PDF中表格转成Excel文件

之前有粉丝问我，能不能帮忙写个脚本，把PDF文件中的表格转成Excel。我说现在我没那么多时间，你可以去看看《学习Python 不加班》那本书中应该是会有相应的一些案例。然后呢就没有然后了。今天有空我来写一个转换脚本，一共3行代码搞定。

02

【Python】已解决：FileNotFoundError: [Errno 2] No such file or directory: ‘D:\1. PDF’

在Python编程中，当你尝试打开一个不存在的文件时，会触发FileNotFoundError。这个问题通常发生在文件路径错误、文件确实不存在于指定位置，或者文件名/扩展名输入错误等情况下。在本例中，错误消息[Errno 2] No such file or directory: ‘D:\1. PDF’ 指出程序试图访问位于D:\路径下的名为1. PDF的文件，但未能找到。

04

Python工具脚本，PDF文件批量转图片（pdf图片提取器）工具（exe）

前面写（抄袭）了一下转图片（提取图片）的源码，包括PDF文件以及PPT文件，这里本渣渣抽空进行了exe打包，打包的是pdf文件转图片，当然使用的gui还是python的tkinter库，仅供参考和学习使用！

02

媳妇儿让我给她找一个PDF转word免费工具，找了半天我决定给她写一个出来^-^

之前我媳妇儿让我给她找一个PDF转WORD的免费工具，在网上找了半天发现要不就是收费，要不就是转化的格式混乱。既然网上不能找到好用的免费工具那就直接来写一个吧。人生苦短，我用python。

03

再也不用复制粘贴了！自动读取Word文件并写入Excel

在做数据分析时，虽然操作docx并不是常用操作，但有些时候，数据分析师拿到的文件是docx或doc的Word文件，尤其是对数据具有至关重要的数据字典。接下来以一个数据字典为例来介绍下python-docx读取Word文件的基本操作。并将Word中的表格内容写入excel中。

02

Python 自动化办公-玩转 Word

只要是简单重复的工作，就想办法用 Python 来帮你解决吧，人生苦短，你需要 Python。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭