使用Python 3从PDF解析中提取标题和子标题

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试将pdf解析为html，然后我想从标签中提取标题和副标题。pdf文档是由Microsoft word生成的，所以我很确定肯定有一种方法可以获得这些标题。到目前为止，我已经尝试过使用Apache Tika和PDFMiner.six进行解析，但是到目前为止，我得到的html还没有这样的标签，我可以用它们来提取文档的标题和副标题</e

浏览 282提问于2019-09-25得票数 2

回答已采纳

2回答

是否有Visual库允许您在PDF中读取缩进？

、、

我正在编写一个程序，试图解析PDF文件中的数据。问题是，我们需要解析PDF中的某个部分，该部分被格式化为三层结构:标题、子标题、段落。到目前为止，我们正在使用换行(\n)来尝试解析数据，但这在很大程度上是效率低下的。即使我们有标题和副标题的所有可能值，解决方案仍然不是理想的，因为新的PDF可能用新的标题和<em

浏览 0提问于2014-11-19得票数 2

1回答

解析HTML文件，并将标题<h1>和副标题<h2>以及它们下面包含的文本存储在其他文件目录中(Python)

、、、、

我实际上将我的.docx文档转换为超文本标记语言，因为我希望所有的标题和副标题都存储在单独的文件中，因为稍后我想要重现相同的文件(但删除一些内容)，所以我的想法是，我将解析一次超文本标记语言，并存储它的所有标题和子标题一次有没有人可以指导我使用哪个库，或者有没有一种我可能不知道的更简单、更聪明的方法？请给我引路。

浏览 4提问于2020-05-28得票数 0

1回答

如何使用python-camelot获取表格坐标？

、、

我试图解析一些pdf文件，以便提取一些关键的information.There是在每个pdf中包含这些信息的一部分的表的数量。因此，我尝试使用camelot来提取表，并获得了很好的结果，但我希望提取每个表的标题，因为我希望为每个表与其标题进行映射。因此，我尝试使用tables[i]._bbox获取每个表的坐标，然后向这些坐标添加一些边距，以检测表标题的区域(它可以在表的顶部、左侧或

浏览 83提问于2019-09-19得票数 3

回答已采纳

2回答

Python正则表达式负查找行为

、、

我试图解析一个包含标题和子标题列表的文档，后面跟着文本体。该文件如下所示：标题二:标题二中的一些文本。标题2中有更多的文本行。标题2中的子标题:子标题2中的一些文本。我试图提取所有头(但不是子头)的列表。正如您从上面的例子中

浏览 2提问于2016-04-23得票数 1

3回答

如何在保持文本结构(标题/字幕/正文)的同时进行PDF文本提取的OCR

、、、、

我一直在不停地寻找一个工具，它可以在维护结构的同时从PDF中提取文本。Body2 我想要一个工具，可以输出一个标题，字幕和身体的列表。从HTML/PDF/Docx进行简单解析的问题是，这些文本没有标准，因此我们经常会遇到在几个标记中划分的句子(在HTML的情况下)，并且很难解析。到目前为止，我在使用Tesseract的和使用OpenCV的中都

浏览 0提问于2018-07-09得票数 6

1回答

如何用Python提取PDF的标题、作者、创建日期

、、、

我在本地管理文件，并以"creationdate_authors_title.pdf“的形式重命名每个PDF文件。因此，需要从PDF文件中自动提取每篇论文的标题、作者、创建日期。我编写了一个python脚本，使用pdfminer包提取信息。但是，对于某些文件，解析它们之后，通过使用doc.info存储在字典PDFDocument中的文件信息可能不包含一些键，比如"

浏览 3提问于2021-07-14得票数 1

1回答

使用bash读取pdf内容

是否可以使用bash命令读取pdf的第一页(并执行一个琐碎的grep等)并相应地重命名文件？-a

浏览 2提问于2014-07-08得票数 1

回答已采纳

1回答

我有数不清的数字格式的书籍，更多的是pdf格式的，但也有很多是电子酒吧格式的。它们太多，很难在文件夹中排序，可能是两个文件夹的一部分，因此它们被保存在一个文件夹中，而在其他文件夹中只有一个指向文件的链接。我找了一个电子书阅读器软件，可以自己区分和附加任何书籍到一套，但我没有找到这么多。因此，我决定编写一个能够这样做的Python程序，然后打开文件的默认读取器。出于这些原因，我正在为任何能够读取pdf文件的Python库提供服务，并为epub文件提供另一个库。我指的是两个

浏览 10提问于2022-10-21得票数 -1

回答已采纳

3回答

将PDF转换为.ipynb (从PDF中恢复木星笔记本)

、、

我有一个PDF文件是从木星笔记本创建的，但是原始的.ipynb文件丢失了。有什么工具可以帮助将PDF转换成.ipynb吗？

浏览 2提问于2020-06-24得票数 0

3回答

从pdf文件中获取数据

、

我有一张pdf文件中的表格。有x，y，z列。我只想要x列。有可能使用python吗？如果是，怎么做？然后我想要画x和y。我该怎么做(使用表中的数据)

浏览 23提问于2022-04-14得票数 -1

1回答

使用R或Python仅从PDF中提取项目符号

、、、

我有一个相当简单的文件(任务的政府战略)，有标题，普通文本，然后是要点(这是他们希望实施的战略)。我可以从.pdf中读取和提取页面或标题，并将其转换为.txt，但我只希望将文本(整个段落)包含在项目符号中，这正是我感兴趣的。我认为有一些方法可以做到这一点，因为它们可能可以通过项目符号本身来识别。在R和/或Python中有没有足够简单的方法来做到这一点？我不熟悉其他编程语言或解析方法。编辑:

浏览 3提问于2017-09-06得票数 1

3回答

帮助以编程方式将文本添加到现有PDF

、

我需要写一个程序，显示一个第三方提供的PDF。在向用户显示文本数据之前，我需要在表单中插入文本数据。我确实可以选择将PDF转换为另一种格式，但它必须看起来完全像原始的PDF。

浏览 2提问于2009-12-01得票数 3

回答已采纳

1回答

使用python从pdfs中提取特定文本

、、

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从检查到调查与历史和调查作为一个excel文件中的列和相应的数据行。python</

浏览 20提问于2022-06-30得票数 0

1回答

Feedly是如何解析这个RSS源中的图片的？

、、、、

我有一个提要，我想从：中提取到这些帖子的内容所以我想问，他们是怎么做到的？这个提要不包含帖子的图像，所以Feedly如何获得它们？

浏览 5提问于2020-03-20得票数 2

回答已采纳

1回答

将cp1251 pdf解析为python中的文本

、、、

有什么方法可以用俄文(cp1251)从pdf文件中提取文本吗？对于解析pdf文件，我使用pdfminer包。

浏览 7提问于2015-08-26得票数 1

回答已采纳

1回答

如何使用Adobe字符解析PDF

、、、

我一直试图使用几种工具来解析PDF文档。例如用于Python的pdfminer，用于Node.js的pdfminer，但是它们都不能解析空间Adobe字符，我得到以下序列。(cid:411)(cid:579)(cid:556)(cid:851)(cid:411)(cid:579) 是否有一个工具可以解析这些字符？

浏览 4提问于2020-07-24得票数 2

回答已采纳

1回答

从文档中提取页眉和页脚(每页重复文本)

、

我正在使用各种python库解析pdf文档，并可以将其转换为页面列表(字符串列表)。我想自动删除标题和页脚，它们是在几乎每个页面上重复的子字符串(不是每个页面上都需要的)。我知道difflib.SequenceMatcher类和类似的工具，但这主要适用于对的字符串。但我想利用这一事实，即文档有很多页，而不仅仅是进行成对比较。我对高效的算法以及可能的python工具(如果有的话)都感兴趣。谢谢你的暗示。

浏览 4提问于2020-11-22得票数 1

1回答

用不正确的结构OCR从PDF中提取数据

、、、、

我从这些pdfs中提取用于各种操作和存储的数据。第一步是使用Adobe的OCR。然后，我使用tika解析pdf。在Python中：parsedPDF = parser.from_file("the_file.pdf")... 001 6 0 6行由换行符分隔，在pdf上看到的一行被解析为整行(见下文

浏览 3提问于2016-07-05得票数 0

回答已采纳

1回答

将word文件吞入内部系统

、、、、

以前，我在Excel中创建了一个VBA脚本，用于查看文件路径列表，打开每个文档，查找起始范围和结束范围，并复制/粘贴之间的所有内容，然后转移到下一个文件中。这个过程是我们每天都要做的事情，所以我想知道创建一个专用的电子邮件地址(非常容易)的能力，但是拔出附件，最终将其抓取并将所需的信息摄取到一个SQL server表中？诚挚的问候!

浏览 0提问于2019-01-23得票数 2

点击加载更多