首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PDF图文文本TOC生成

PDF图文文本TOC生成
EN

Stack Overflow用户
提问于 2011-04-13 10:04:23
回答 1查看 1.1K关注 0票数 0

我必须将多个PDF文档合并成一个PDF文档。除此之外,我还得生成TOC。原始文档将包含具有特定样式的文本(例如H1)。这个特殊的文本成为TOC的一部分。

已使用iText合并多个PDF文件。我无法在上找到示例/API,解析文档以查找所有具有样式H1的内容。生成TOC是下一个挑战。

EN

回答 1

Stack Overflow用户

发布于 2011-04-15 00:13:50

你没有。PDF没有风格。它们有“当前图形状态”,其中包括:

当前转换矩阵( colors

  • clipping
  • current transformation矩阵)。
  • 笔画和填充CTM.

路径

  • 字体和大小

  • 字型(字符间距、字间距、前导、文本呈现为一个单独的文本转换矩阵,与CTM.

组合在一起)。

因此,首先,您必须跟踪所有这些东西( iText主要可以为您完成)。然后,您必须确定"H1“文本有多大,并锁定到该大小屏幕大小中的所有文本,同时考虑到CTM、文本矩阵和字体大小( iText将再次为您做这些操作,IIRC)。

为了让像你这样的人的生活更令人兴奋,你所看到的文本完全有可能不是短信。可能是路径或者位图..。此时您需要OCR,而且我认为您不会在OCR的大小信息方面获得太多信息。

您需要编写一个TextRenderListener来确定给定文本的最终大小(以及它是否是最后一个文本的一部分),并过滤掉所有太小的内容。然后,您将根据您找到的文本构建您的TOC。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5647445

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档