现在我正在做一个项目,在这个项目中,我必须找到PDF文件中每个段落的字体大小。我尝试过各种python库,比如fitz,PyPDF2,pdfrw,pdfminer,pdfreader。所有的库都获取文本数据,但我不知道如何获取段落的字体大小。感谢您在advance..your中的帮助。
我已经试过了,但无法获得字体大小。
import fitz
filepath = '/home/user/Downloads/abc.pdf'
text = ''
with fitz.open(filepath ) as doc:
for page in doc:
text+= page.getText()
print(text)
发布于 2021-06-24 14:43:48
我从pdfminer得到了解决方案。下面给出了相同的python代码。
from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar,LTLine,LAParams
import os
path=r'/path/to/pdf'
Extract_Data=[]
for page_layout in extract_pages(path):
for element in page_layout:
if isinstance(element, LTTextContainer):
for text_line in element:
for character in text_line:
if isinstance(character, LTChar):
Font_size=character.size
Extract_Data.append([Font_size,(element.get_text())])
https://stackoverflow.com/questions/68097779
复制相似问题