首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在Python中使用带有"-layout“选项的pdftotext库

如何在Python中使用带有"-layout“选项的pdftotext库
EN

Stack Overflow用户
提问于 2021-04-15 09:53:26
回答 1查看 698关注 0票数 3

我正在使用Python pdftotext来抓取一个PDF文件的文本。这很好,但是我需要命令行工具在pdftotext -layout pdf_file.pdf中提供的“pdftotext -layout pdf_file.pdf”选项。不确定不需要在代码中显式地使用命令,这是否可能。

实际代码:

代码语言:javascript
运行
复制
pdf = pdftotext.PDF(file)
plain_text = "\n\n".join(pdf)

为更好地抓取布局选项的理想代码:

代码语言:javascript
运行
复制
pdf = pdftotext.PDF(file, "-layout")
plain_text = "\n\n".join(pdf)

我想在Python程序中避免这样做:

代码语言:javascript
运行
复制
cmd = ['pdftotext', '-f', str(1), '-l', str(1), str(pdf_file), '-layout', '-']

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2022-03-26 18:30:28

代码语言:javascript
运行
复制
with open("file.pdf", "rb") as f:
    pdf=pdftotext.PDF(f,physical=True)

Inside the code found:
    "    raw: If True, page text is output in the order it appears in the\n"
    "        content stream.\n"
    "    physical: If True, page text is output in the order it appears
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67106225

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档