PDFminer从每个页面的标题中获取字体大小(迭代)

PDFminer是一个用于解析PDF文档的Python库。它提供了一些功能，包括从PDF中提取文本、图片和元数据等信息。对于获取每个页面标题的字体大小，可以通过以下步骤实现：

导入必要的库和模块：

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO

定义一个函数来提取PDF中的文本内容，并获取每个页面标题的字体大小：

def extract_text_from_pdf(file_path):
    # 创建一个字符串缓冲区对象
    output_string = StringIO()
    resource_manager = PDFResourceManager()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(resource_manager, output_string, codec=codec, laparams=laparams)
    interpreter = PDFPageInterpreter(resource_manager, device)

    with open(file_path, 'rb') as file:
        for page in PDFPage.get_pages(file):
            interpreter.process_page(page)
            layout = device.get_result()

            for element in layout:
                if hasattr(element, 'get_text'):
                    text = element.get_text()
                    # 获取标题的字体大小
                    if element.get_text().isupper():
                        font_size = element.fontsize
                        print(f"标题：{text}，字体大小：{font_size}")

    # 关闭设备和缓冲区
    device.close()
    output_string.close()

# 调用函数并指定PDF文件路径
extract_text_from_pdf('file.pdf')

上述代码中，我们使用PDFminer的相关模块来解析PDF文档并提取文本内容。通过遍历文档中的元素，我们判断每个元素是否为标题（通常标题以大写字母开头），如果是标题，则获取其字体大小并打印出来。

值得注意的是，PDFminer库不是一个专门用于处理PDF的云计算产品，而是一个开源的Python库。它可以在各种云计算环境中使用，包括腾讯云。腾讯云提供了云服务器、对象存储等云计算服务，可以用于部署和运行Python程序。具体产品和介绍可以参考腾讯云官方网站的相关页面。

PDFminer相关资源链接：

页面内容是否对你有帮助？

有帮助

没帮助

PDFminer从每个页面的标题中获取字体大小(迭代)

、、、

我对python和PDFminer非常陌生，这对我来说有点复杂，我试图实现的是从pdf文件或幻灯片中提取每个页面的标题。我的方法是获得每页的文本行和字体大小的列表，然后我将选择最高的数字作为幻灯片标题通常写在较高的字体大小。这就是我迄今为止所做的：假设我想从这个pdf文件中获得第8页的标题。这是获取每行所有页面字体大小的代码： from pdfminer.high_level import extract_pag

浏览 78提问于2021-08-01得票数 1

回答已采纳

1回答

如何在VBA中获取页头而不是节头

、

我很难从有数百页的word文档中获取页面标题，它有不同的页眉pageHeader = wdDoc.Sections(pageNumber).Headers(1).Range.Text上下文:我将word文档导入到excel，每个word页面都有表，这些表与它们的唯一编号相关联，显然它们被放置在每个页面的标题中，因此不同的页

浏览 0提问于2019-04-10得票数 0

回答已采纳

0回答

Python pdfminer提取图像每页生成多个图像(应该是单个图像)

、

第1页是文本，第2-n页是图像(每页一个，或者它可能是跨越多个页面的单个图像；我无法控制原点)。 save_image(thing) save_image在'wb'模式下以pageNum_imgNum格式为每个图像写入一个文件，或在'a'模式下为每个页

浏览 0提问于2016-07-12得票数 5

1回答

使用PDFX Python库将PDF转换为Json

、、、、

我可以从.PDF文件中获取元数据，但是它只有第一页，或者看起来像是.PDF的参数，但它没有列出实际的数据。下面是我的代码。这很简单，因为我还在学习如何使用这个库，这是我能够从库网站上的文档中获得的。Title": "Employee Earnings Record Application", },} 正如您所看到的，有26页，有没有办法让我上面的</em

浏览 14提问于2018-02-18得票数 1

2回答

Pagerank -麻烦

、、

我将给你们展示两个场景(N.B. d=damping factor=0.5) 我可以通过将0.25放在PR(B)=PR(C)=PR(D)上来解决这个方程，我将得到0.875的值。我不需要解决任何系统 PR(A)=0.5 + 0.5 * PR(C) PR(B)=0

浏览 2提问于2011-01-20得票数 1

回答已采纳

1回答

使用.split将字符串数组拆分为较小的数组是否会创建重复的数组名称？

、、

请参考下面的图片，我认为这将有助于澄清我的问题。颜色编码是帮助识别每个数组中的元素。但是，当运行分隔“行”数组的代码时，这是否会创建具有重复名称的多个数组，如图中所示？第二个for-每个循环如何知道我想迭代哪个“值”数组？它如何知道迭代所有的“值”数组？

浏览 1提问于2020-07-20得票数 1

13回答

用于将PDF转换为文本的Python模块

、、、

有没有python模块可以把PDF文件转换成文本？我尝试了在Activestate中找到的，它使用pypdf，但生成的文本之间没有空格，也没有任何用处。

浏览 3提问于2008-08-25得票数 408

回答已采纳

8回答

在Chrome中忽略字体的重量

、、、、

我创建了一个，试图使用字体大小为300的Open字体：<span class="demo">example</span>.demo {我在Chrome的两个不同的窗口中打开了两个相同页面的实例。一种是渲染字体ok (300权重对应于轻型变体)，另一种则不是(300权重与普通变体相同)。有什么线索吗？我确保在每个选项卡中刷新页面，因此它们实际上是同一页。更新3

浏览 5提问于2014-02-24得票数 40

1回答

用RxAndroid生成树形结构

、、、、

我有同步适配器查询服务A以获得列表页(大小n)。对于页面中的每一项，我必须提出一个请求，以生成另一行(m大小)。JSONResponse jsonResponse) { }我从服务器获取页面，然后从服务器映射并获取每个页面的行，然后解析JSON并获取行的arrayList。现在，我想在每一行上迭代

浏览 4提问于2015-07-24得票数 2

回答已采纳

2回答

PHP数组多元素解析

、

totalResults] => 161 [results] => Array of interesting information我的问题是，在迭代每个结果时，是否有一种方法可以从=> 1页迭代到=> 7页，类似于下面的代码示例？也就是

浏览 1提问于2018-03-17得票数 2

回答已采纳

2回答

角标头相对routerLink

、、、、

我试图在Angular6中创建一个全局标题，其中包含一个动态超链接列表，每个页面的超链接是不同的。超链接总是引用一些相对于当前URL的页面。但是路由器链接在全局标头中并不能相对工作。这意味着，当我在应用程序根标题中有一个路由器链接，并且我试图建立相对链接到当前的，懒惰加载模块，该模块目前正在使用，我已经加载了一个菜单。现在，如果在同一页上，我将相同的代码插入到employee组件中，该组件作为主体加载，它的工作方式不同，它将将我重定向到其中。http://example.com

浏览 1提问于2018-09-10得票数 1

回答已采纳

1回答

用R从PDF文件中提取字符字体大小

、、

但我很难想出一个在R.中编码的同时获得字体大小的想法，其他的解决方案似乎可以在其他编码语言中使用。例如，您可以非常容易地提取有关页面中字符数量的信息，或者转换图像中的每个页面，并获取有关像素数量之类的数据--这将是我元数据的一部分。但我不知道如何获得字体大小。我该怎么做？特别是如果我们假设文件的扫描版本，如上述文件。：我可能会在一个单独的问题中问这个问题，但如果有人能就评论中的页边距大小和行间距提出一些想法，我会非常珍惜。第二次观察：我认为(在这个特殊情况下)我所用的PDF可以有元数

浏览 1提问于2018-03-16得票数 2

回答已采纳

2回答

CloudFlare页面规则不按预期进行缓存

、

编辑:只到下面的clarify...the是我想要的结果http://www.website.co.uk/432432/funny-cats http://www.website.co.uk/234234

浏览 4提问于2015-12-23得票数 0

回答已采纳

2回答

如何从Rails和Nokogiri迭代站点页面

、、

我设法从第一页抓取标题，并将URL迭代打包到一个数组中。 end render template: 'scrape_mydealz'end 使用此代码，它将迭代到第2<

浏览 0提问于2017-03-20得票数 0

2回答

使用BeautifulSoup进行网络抓取只会擦拭第一页

、、

我正在尝试从webmd留言板上刮取的一些数据。最初，我构造了一个循环来获取每个类别的页码，并将其存储在一个dataframe中。当我试图运行循环时，我确实为每个子类别获得了适当的发帖量，但只为第一页。thread-detail"): lists2.append(body) 我在打印函数中得到了正确的页面，但是它似乎只在第一页中迭代另外，当我复制并粘贴除

浏览 0提问于2019-12-02得票数 0

2回答

如何对数组的计算机元素使用for循环？

、、、

`import numpy as npimport scipy h=6.62607015e-34 #plank's constant in m^2 kg per sπ=np.pidef F(λ,n): return ((2*π*h*c**2)/λ**5)*(1/(np.e

浏览 5提问于2022-11-02得票数 0

回答已采纳

3回答

在python中使用selenium导航分页

、、、

我的代码工作正常，但它目前只抓取第一页，我想迭代所有的页面并抓取所有页面，但它们以一种奇怪的方式处理分页，我该如何遍历页面并逐个抓取它们？

浏览 0提问于2018-08-08得票数 2

回答已采纳

2回答

如何使用node js在浏览器中显示来自MongoDB的多张图片

、

schema = new Schema( { photo : {data:Buffer, contentType: String}现在，让我们假设我通过上面的模式在数据库中存储了数百张照片我想在浏览器中查看所有这些存储的图片，方法是启动一个post API，每个页面显示10张照片。应该有一个‘上一页’或‘下一步’按钮，将帮助我分别转到上一页或下一页。我尝试了下面的代码，它总是在forEach循环迭代结束时显示结果集中的

浏览 1提问于2017-08-10得票数 0

1回答

当URL不改变时，如何在web抓取时迭代页面

、、、

(k) OCBC['Branch_Name']=Branch_list 这给了我第一页所需的信息

浏览 1提问于2020-11-10得票数 0

回答已采纳

1回答

从服务工作人员获取主页URL

、、、

这两种方法都需要标识索引页(#2将在请求索引页的同时检查更新)。然而，我发现自己被引入了似乎不雅的解决方案。我必须按当前页面的URL。对于#1，我在“安装”事件中使用skipWaiting()，在"activate“中使用clients.matchAll()客户机来迭代每个客户机，然后将client.url添加到缓存中。这似乎有点冗长，难道没有办法在“安装”事件中获取主页面URL吗？对于#2，我必须在每个fetch事件中调用clients.matchAll(

浏览 4提问于2015-10-13得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PDFminer从每个页面的标题中获取字体大小(迭代)

相关·内容

PDFminer从每个页面的标题中获取字体大小(迭代)

如何在VBA中获取页头而不是节头

Python pdfminer提取图像每页生成多个图像(应该是单个图像)

使用PDFX Python库将PDF转换为Json

Pagerank -麻烦

使用.split将字符串数组拆分为较小的数组是否会创建重复的数组名称？

用于将PDF转换为文本的Python模块

在Chrome中忽略字体的重量

用RxAndroid生成树形结构

PHP数组多元素解析

角标头相对routerLink

用R从PDF文件中提取字符字体大小

CloudFlare页面规则不按预期进行缓存

如何从Rails和Nokogiri迭代站点页面

使用BeautifulSoup进行网络抓取只会擦拭第一页

如何对数组的计算机元素使用for循环？

在python中使用selenium导航分页

如何使用node js在浏览器中显示来自MongoDB的多张图片

当URL不改变时，如何在web抓取时迭代页面

从服务工作人员获取主页URL

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐