首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何使用python代码找到PDF文件的每个段落的字体大小?

如何使用python代码找到PDF文件的每个段落的字体大小?
EN

Stack Overflow用户
提问于 2021-06-23 18:09:01
回答 1查看 460关注 0票数 2

现在我正在做一个项目,在这个项目中,我必须找到PDF文件中每个段落的字体大小。我尝试过各种python库,比如fitz,PyPDF2,pdfrw,pdfminer,pdfreader。所有的库都获取文本数据,但我不知道如何获取段落的字体大小。感谢您在advance..your中的帮助。

我已经试过了,但无法获得字体大小。

代码语言:javascript
代码运行次数:0
运行
复制
import fitz

filepath = '/home/user/Downloads/abc.pdf'
text = ''
with fitz.open(filepath ) as doc:
    for page in doc:
        text+= page.getText()
print(text)
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-06-24 14:43:48

我从pdfminer得到了解决方案。下面给出了相同的python代码。

代码语言:javascript
代码运行次数:0
运行
复制
from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar,LTLine,LAParams
import os
path=r'/path/to/pdf'

Extract_Data=[]

for page_layout in extract_pages(path):
    for element in page_layout:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        Font_size=character.size
            Extract_Data.append([Font_size,(element.get_text())])
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68097779

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档