文章/答案/技术大牛

发布

社区首页 >问答首页 >PDF图文文本TOC生成

问PDF图文文本TOC生成
EN

Stack Overflow用户

提问于 2011-04-13 10:04:23

回答 1查看 1.1K关注 0票数 0

我必须将多个PDF文档合并成一个PDF文档。除此之外，我还得生成TOC。原始文档将包含具有特定样式的文本(例如H1)。这个特殊的文本成为TOC的一部分。

已使用iText合并多个PDF文件。我无法在上找到示例/API，解析文档以查找所有具有样式H1的内容。生成TOC是下一个挑战。

tableofcontents

pdf

itext

回答 1

Stack Overflow用户

发布于 2011-04-15 00:13:50

你没有。PDF没有风格。它们有“当前图形状态”，其中包括：

当前转换矩阵( colors

clipping
current transformation矩阵)。
笔画和填充CTM.

路径

字体和大小

字型(字符间距、字间距、前导、文本呈现为一个单独的文本转换矩阵，与CTM.

组合在一起)。

因此，首先，您必须跟踪所有这些东西( iText主要可以为您完成)。然后，您必须确定"H1“文本有多大，并锁定到该大小屏幕大小中的所有文本，同时考虑到CTM、文本矩阵和字体大小( iText将再次为您做这些操作，IIRC)。

为了让像你这样的人的生活更令人兴奋，你所看到的文本完全有可能不是短信。可能是路径或者位图..。此时您需要OCR，而且我认为您不会在OCR的大小信息方面获得太多信息。

您需要编写一个TextRenderListener来确定给定文本的最终大小(以及它是否是最后一个文本的一部分)，并过滤掉所有太小的内容。然后，您将根据您找到的文本构建您的TOC。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5647445

复制

相似问题

问PDF图文文本TOC生成
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF图文文本TOC生成EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF图文文本TOC生成
EN