开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

python pdfminer - KeyError 'AcroForm‘

Python PDFMiner是一个用于解析PDF文件的Python库。它提供了一组功能强大的工具，可以从PDF文件中提取文本、元数据和图像等信息。在解析PDF文件时，有时可能会遇到KeyError 'AcroForm'的错误。

这个错误通常是由于PDF文件中缺少AcroForm字段导致的。AcroForm是Adobe Acrobat中的一种表单格式，用于创建交互式PDF表单。当使用Python PDFMiner解析不包含表单的PDF文件时，就会出现这个错误。

解决这个问题的方法是在解析PDF文件之前，先检查文件中是否存在AcroForm字段。可以使用PDFMiner的pdfparser模块来实现这个功能。以下是一个示例代码：

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument

def parse_pdf(file_path):
    with open(file_path, 'rb') as file:
        parser = PDFParser(file)
        document = PDFDocument(parser)

        if 'AcroForm' in document.catalog:
            # 执行PDF解析操作
            # ...
        else:
            # 处理没有表单的情况
            # ...

# 调用示例
parse_pdf('example.pdf')

在上面的代码中，我们首先使用PDFParser和PDFDocument类来解析PDF文件。然后，我们检查document.catalog中是否存在AcroForm字段。如果存在，就执行PDF解析操作；如果不存在，就处理没有表单的情况。

对于PDF解析操作，可以使用PDFMiner的其他模块和工具来提取所需的信息。例如，可以使用pdfminer.layout模块来提取文本和布局信息，使用pdfminer.image模块来提取图像等。

关于PDFMiner的更多信息和使用方法，可以参考腾讯云提供的PDFMiner产品介绍链接：PDFMiner产品介绍

总结：Python PDFMiner是一个用于解析PDF文件的Python库。当解析不包含表单的PDF文件时，可能会出现KeyError 'AcroForm'的错误。可以通过检查PDF文件中是否存在AcroForm字段来解决这个问题。PDFMiner提供了其他模块和工具，可以用于提取文本、布局信息、图像等。更多关于PDFMiner的信息可以参考腾讯云的产品介绍链接。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

PDF转化为TXT简单工具（适合程序员使用）

支持python3版本的pdfminer，请参见 https://pypi.python.org/pypi/pdfminer3k/

01

独家 | 手把手教你如何用Python从PDF文件中导出数据（附链接）

有很多时候你会想用Python从PDF中提取数据，然后将其导出成其他格式。不幸的是，并没有多少Python包可以很好的执行这部分工作。在这篇贴子中，我们将探讨多个不同的Python包，并学习如何从PDF中提取某些图片。尽管在Python中没有一个完整的解决方案，你还是应该能够运用这里的技能开始上手。提取出想要的数据之后，我们还将研究如何将数据导出成其他格式。

03

如何将pdf转换为word 3.0

相对于封装的软件，python和R的操作需要稍微折腾一下。浏览论坛的时候的发现了一款轻量级程序，尝试了一下还不错，看一下转换的效果：

03

Python | PDF 提取文本的几种方法

常见的 PDF 文件可以分为两类：一种是文本转化而成（Text-Based），通常可以直接复制和粘贴；另一种是扫描文件而成（Scanned），比如影印书籍、插入图片制成的文件。依据此分类，将 Python 中处理 PDF 文件的第三方库可以简单归类：

04

使用pdfminer解析pdf文件

最近要做个从 pdf 文件中抽取文本内容的工具，大概查了一下 python 里可以使用 pdfminer 来实现。下面就看看怎样使用吧。

03

爬虫系列：读取 CSV、PDF、Word 文档

上一期我们讲解了使用 Python 读取文档编码的相关问题，本期我们讲解使用 Python 处理 CSV、PDF、Word 文档相关内容。

02

Python读取PDF信息插入Word文档

Hello，上个周末没能搞事情，被一个代码需求给绊住了：朋友在平时工作中会经常重复性地打开不同PDF文件，选取其中特定的几组信息复制粘贴到不同的Word文档中，完成一份PDF文件平均耗时15分钟，想试试Python代码能否帮忙。

04

pdfminer将pdf转为csv

之前随便做了一下中金所杯的金融知识大赛的试题，低分飘过。看到复试名单，突然有一个想法，这个是pdf，万一有人想分析一下每个区域的人的分布，那怎么办。

04

三大神器助力Python提取pdf文档信息

今天这篇文章是今年最后一篇文章了，因此也是一篇非常有用的技术文章，你可以现在只了解一下并进行收藏，等你需要用到的时候再拿出来看一看，这样就好了。

python如何提取英语pdf内容并翻译

本文实例为大家分享了python提取英语pdf内容并翻译的具体代码，供大家参考，具体内容如下

02

手把手 | 20行Python代码教你批量将PDF转为Word

大数据文摘作品投稿作者｜丁彦军在日常工作或学习中，经常会遇到这样的无奈： “小任，你把这个PDF中的文件码出来发我” 艹，倒霉，2M的PDF12点也完不了啊！很多时候在学习时发现许多文档都是PDF格式，PDF格式却不利于学习使用，因此需要将PDF转换为Word文件，但或许你从网上下载了很多软件，但只能转换前五页（如WPS等），要不就是需要收费，那有没有免费的转换软件呢？ so，我们给各位带来了一个免费简单快速的方法，手把手教你用Python批量处理PDF格式文件，获取自己想要的内容，存为word形式。

05

Python读取PDF内容

1，引言晚上翻看《Python网络数据采集》这本书，看到读取PDF内容的代码，想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。从而产生了一个问题：用Python爬虫的话，能做到什么程度。下面将讲述一个实验过程和源代码。 2，把pdf转换成文本的Python源代码下面的python源代码，读取pdf文件内容(互联网上的或是本地的)，转换成文本，打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串，然后用StringIO转换成文件对象。（源代码下载地址参看文章末尾的GitHub源）

03

太方便了！利用Python对批量Pdf转Word

在wps或者office里面可以将pdf转word，不过只能免费转前面5页，超过5页就需要会员。今天教大家一个Python办公小技巧：批量Pdf转Word ，这样可以自由想转多少页都可以。

01

基于Python实现对各种数据文件的操作

更多参考：https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files

04

python提取pdf文本内容

Layout布局分析返回的PDF文档中的每个页面LTPage对象。这个对象和页内包含的子对象，形成一个树结构。如图所示：

02

51. Python 数据处理（2）

#所以，由上代码可以分析出，如果文件原本就存在，而你要修改它，不能直接使用xlwt，必须使用 xlutils.copy 方法复制一份出来再修改，最后保存或覆盖原文件。

02

Python | 从 PDF 中提取文本内容

本来打算推一篇如何使用 Python 从 PDF 中提取文本内容的文章，但是因为审核原因，公众号上发不出来。尝试排查了一个小时，还是没有搞定，索性就放弃挣扎了。我在这里放出来文章的第一部分，如果有兴趣，可以前往我的 Github 或者码云上查看全文。

02

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比

pdfminer3k 是 pdfminer 的 python3 版本，主要用于读取 pdf 中的文本。

03

python中解析和生成pdf文件

python中可以对pdf文件进行解析和生成，分别需要安装pdfminer/pdfminer3k和reportlab文件库。

02

一个薪资double的捷径：自动化简历内推工具

最近，小编在处理简历时，发现大量简历需要一个个打开文件，复制姓名、邮箱、电话号码、学历等关键信息，效率特别低且部分文件无法直接复制。于是，小编便写了文件阅读工具的脚本，支持文件格式有：doc，docx，pdf。

03

秋季招聘季如何制作一款“秀色可餐”的简历？由ShareLatex和Python3打造

说起简历模板，大家一定不会陌生，随便在百度搜关键词“简历模板”，林林总总的会出现一大片，但是这些简历模板往往都会有一个共同点，就是太Low、“土味”重、没有时代感、味同嚼蜡，蜡都要顺着嘴角流下来了，以一个求职者的视角来看待这些简历都会无奈心烦，更别说招聘者了。所以新时代的简历应该具备独特性、新颖、与众不同并且不落窠臼。

04

PDF转Word完全免费？这么好的事情我怎么不知道？？？？

现在网络上大部分的PDF转Word都是收费的，基本都是按页收费，有了我们的python代码后，我们就可以完全免费的将PDF转成Word了，这么好的福利我们赶紧来了解一下吧！

02

一文贯通python文件读取

不论是数据分析还是机器学习，乃至于高大上的AI，数据源的获取是所有过程的入口。数据源的存在形式多为数据库或者文件，如果把数据看做一种特殊格式的文件的话，即所有数据源都是文件。获得数据，就是读取文件的操作，文件有各种各样的格式即数据的组织形式，如何方便快捷地获取文件中的内容呢？

02

安装 Python 软件包遇错误，怎么办？

本文通过一个命令行转换 pdf 为词云的例子，给你讲讲 Python 软件包安装遇挫折时，怎么处理才更高效？

02

使用pdfminer提取PDF文件中的文字

和word文档一样，pdf文件也拥有强大的排版功能。对于pdf的编程操作而言，分为读和写两大类，其中读是相对简单的一种，比如读出pdf文件中的文字，写是比较难的，除了文字，图片等基本元素，最重要的是排版的样式控制，而编程还无法满足样式的灵活性。

01

❤️ 6个Python办公黑科技，工作效率提升100倍！HR小姐姐都馋哭了（附代码）❤️

环境准备：python 3.6 、mac（下文中doc转docx是mac写法，windows更简单，导入win32的包即可）

02

60行Python代码，实现多线程PDF转Word

工作中经常会遇到需要提取PDF文件中文字的情况，一个PDF还好，复制粘贴一下也花不了太多时间，如果需要把大量PDF转为Word，怎么办呢？

03

60行Python代码，实现多线程PDF转Word

工作中经常会遇到需要提取PDF文件中文字的情况，一个PDF还好，复制粘贴一下也花不了太多时间，如果需要把大量PDF转为Word，怎么办呢？

03

python读取pdf提取文字和图片

如下图所示，一份pdf有几十页，每页九张图片，提取出图片并用图片下方的文本对图片命名

03

媳妇儿让我给她找一个PDF转word免费工具，找了半天我决定给她写一个出来^-^

之前我媳妇儿让我给她找一个PDF转WORD的免费工具，在网上找了半天发现要不就是收费，要不就是转化的格式混乱。既然网上不能找到好用的免费工具那就直接来写一个吧。人生苦短，我用python。

03

攻防世界web进阶区FlatScience详解

判定POST提交的usr和pw是否存在，很显然usr处存在注入这里提醒是sqlite数据库

01

Python处理CSV,Excel,PD

逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。

02

python的三方库_py第三方库有哪些

可以在 The Python Package Index (PyPI) 软件库（官网主页：https://pypi.org/ ）查询、下载和发布 Python包或库。

01

python pdf

# 从pdf中读取文本 # 写pdf # 加密解密pdf # 和平pdf，加水印 # pip install PyPDF2 %cd D:\python全站\office import PyPDF2 D:\python全站\office pdf_obj = open('coop.pdf', 'rb') pdf = PyPDF2.PdfFileReader(pdf_obj) pdf.numPages 3 page = pdf.getPage(0) page.extractText() # 提取文件 '\n\n

02

盘点一个批量提取pdf文件目标信息的实用案例

前几天在帮助粉丝解决问题的时候，遇到一个简单的小需求，需要批量提取pdf文件目标信息，这里拿出来跟大家一起分享，后面再次遇到的时候，可以从这里得到灵感。

03

Python3外置模块使用

(1)外置模块一览表描述：Python外置模块可以说是Python的强大之处的存在，使得Python语言扩展性高，使用方法众多并且使用也非常简单，在我们日常的运维开发学习中尤为重要;

03

太方便了！利用Python对批量Pdf转Word

在wps或者office里面可以将pdf转word，不过只能免费转前面5页，超过5页就需要会员。今天教大家一个Python办公小技巧：批量Pdf转Word ，这样可以自由想转多少页都可以。

00

Python:一周笔记

主题邮件处理日志模块 pdf处理 md5 mongodb索引和聚合 excel 读写 1. 发送邮件模块这里指的邮件功能当然不是指的是职场上所谓的邮件，指的是程序运行中希望将程序运行的日志信息或者错误捕获信息发送给指定的收件人，通过邮件可以了解程序运行的状态或者出错信息。关于邮件的基本概念，这里引用廖雪峰老师python教程中的邮件模块：假设我们自己的电子邮件地址是me@163.com，对方的电子邮件地址是friend@sina.com（注意地址都是虚构的哈），现在我们用Outlook或者Fox

04

用Python处理PDF

PDF作为可移植文档格式(Portable Document Format)，在日常生活中经常接触到，最近处理一些数据更是频繁接触一些需要批量处理pdf文件的需求，因此便想整理一下自己实践的用Python处理PDF格式数据的笔记。本文会保持更新。PDF处理的高频需求有：读取、写入、格式转换（pdf提取文本写入txt、根据url写入pdf等）、批处理（多个pdf合并为1个、切分pdf）等等。查了下相关资料，Python操作PDF的库有（只是应用的话肯定不至于造轮子从二进制数据开始读）：pdfminer、pdfminer3k、PyPDF、PyPDF2、pdf2htmlex、pdf2image、pdf2xlsx等。

06

Python3外置模块使用

(1)外置模块一览表描述：Python外置模块可以说是Python的强大之处的存在，使得Python语言扩展性高，使用方法众多并且使用也非常简单，在我们日常的运维开发学习中尤为重要;

02

告别手动编辑：9个Python库让PDF操作自动化

大家好，这里是程序员晚枫，2年前发布了一个开源项目：python-office，目前在GitHub上有800+⭐，最近在开发新功能时感觉Python知识有点不够用了。

01

我用飞桨Parakeet合成小姐姐声音帮我“读”论文

【飞桨开发者说】顾茜，PPDE飞桨开发者技术专家，烟草行业开发工程师，毕业于厦门大学数学科学学院，研究方向为：人工智能在烟草行业的应用。

03

技术学习：Python（11）｜操作PDF

🏮1 前言 Python在自动化办公方面有很多实用的第三方库，我们可以从官方网https://pypi.org/search/?q=pd找到很多这种第三方库来供给我们使用，这些库可以很方便的处理wor

01

一段价值2.4万元的Python代码

上周行哥发了一篇文章，在里面用游戏案例分析了一下“我们为什么这么穷？”，可谓字字珠玑，每一个游戏案例的观点都深入人心

02

python读取pdf文档-实战

# -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.

02

python3读取pdf文件

一.安装pdfminer3k模块二.读取pdf文件 import sys import importlib importlib.reload(sys) from pdfminer.pdfparse

01

超实用！整理了34个Python自动化办公库！

特点：xlwings 是开源且免费的，预装了 Anaconda 和 WinPython，可在 Windows 和 macOS 上运行。通过 Python 脚本或 Jupyter notebook 自动化 Excel，通过宏从 Excel 调用 Python，并编写用户定义的函数（UDF 仅适用于 Windows）

04

Python使用pdfminer3k提取PDF文件中的文本

编写Python程序，提取PDF文件中的文本内容，生成与原PDF文件同名的文本文件。

01

深度盘点丨史上最全的Python自动化办公库（34个）

社区的小伙伴们大家好，我是你们的新朋友牛稳稳。今天继续给大家分享我花了将近2周时间整理的Python自动化办公库。

03

解决python keyerror(0)

当我们在处理Python字典时，有时候会遇到KeyError(0)的错误。这个错误通常发生在我们试图通过以下方式访问字典中的某个键的时候：dictionary[0]，其中 dictionary 是一个字典对象。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭