文章/答案/技术大牛

发布

社区首页 >问答首页 >如何通过xpdf或mupdf获取指定的文本pos？

问如何通过xpdf或mupdf获取指定的文本pos？
EN

Stack Overflow用户

提问于 2011-09-22 17:38:36

回答 2查看 2.7K关注 0票数 3

我想提取一些pdf文件中指定的文本和文本位置。

我知道xpdf和mupdf可以解析pdf文件，所以我认为它们可以帮助我完成这项任务。

但是如何使用这两个库来获取文本位置呢？

extraction

mupdf

xpdf

pdf

text

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-12-02 17:29:25

Mupdf附带了几个工具，其中一个是pdfdraw。

如果您使用带有-tt选项的pdfdraw，它将生成一个包含所有字符及其确切位置信息的XML。

从那里你应该能够找到你需要的东西。

票数 1

Stack Overflow用户

发布于 2018-01-16 06:04:21

如果您不介意为MuPDF使用Python绑定，这里有一个使用PyMuPDF的Python解决方案(我是它的开发人员之一)：

import fitz                     # the PyMuPDF module
doc = fitz.open("input.pdf")    # PDF input file
page = doc[n]                   # page number n (0-based)
wordlist = page.getTextWords()  # gives you a list of all words on the
# page, together with their position info (a rectangle containing the word)

# or, if you only are interested in blocks of lines belonging together:
blocklist = page.getTextBlocks()

# If you need yet more details, use a JSON-based output, which also gives
# images and their positions, as well as font information for the text.
tdict = json.loads(page.getText("json"))

如果你感兴趣，我们在GitHub上。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7512674

复制

相似问题

问如何通过xpdf或mupdf获取指定的文本pos？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过xpdf或mupdf获取指定的文本pos？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过xpdf或mupdf获取指定的文本pos？
EN