我必须将多个PDF文档合并成一个PDF文档。除此之外,我还得生成TOC。原始文档将包含具有特定样式的文本(例如H1)。这个特殊的文本成为TOC的一部分。
已使用iText合并多个PDF文件。我无法在上找到示例/API,解析文档以查找所有具有样式H1的内容。生成TOC是下一个挑战。
发布于 2011-04-15 00:13:50
你没有。PDF没有风格。它们有“当前图形状态”,其中包括:
当前转换矩阵( colors
路径
组合在一起)。
因此,首先,您必须跟踪所有这些东西( iText主要可以为您完成)。然后,您必须确定"H1“文本有多大,并锁定到该大小屏幕大小中的所有文本,同时考虑到CTM、文本矩阵和字体大小( iText将再次为您做这些操作,IIRC)。
为了让像你这样的人的生活更令人兴奋,你所看到的文本完全有可能不是短信。可能是路径或者位图..。此时您需要OCR,而且我认为您不会在OCR的大小信息方面获得太多信息。
您需要编写一个TextRenderListener
来确定给定文本的最终大小(以及它是否是最后一个文本的一部分),并过滤掉所有太小的内容。然后,您将根据您找到的文本构建您的TOC。
https://stackoverflow.com/questions/5647445
复制相似问题