如何使用PDFBox获取PDF中书签内容的页码

PDFBox是一个开源的Java库，用于处理PDF文件。它提供了丰富的功能，包括提取文本、图像、元数据等，同时也支持获取PDF中书签内容的页码。

要使用PDFBox获取PDF中书签内容的页码，可以按照以下步骤进行操作：

导入PDFBox库：首先，需要将PDFBox库添加到你的Java项目中。你可以从PDFBox官方网站（https://pdfbox.apache.org/）下载最新版本的库文件，并将其导入到你的项目中。
加载PDF文件：使用PDFBox提供的PDFDocument类，可以加载PDF文件并创建一个PDF文档对象。你可以使用PDFDocument的静态方法load()来加载PDF文件，例如：

PDDocument document = PDDocument.load(new File("path/to/your/pdf/file.pdf"));

获取书签内容：通过调用PDFDocument对象的getDocumentCatalog()方法，可以获取PDF文档的目录。然后，可以使用目录对象的getDocumentOutline()方法获取书签的根节点。接下来，可以使用递归方法遍历书签树，获取每个书签的内容和页码。

PDDocumentOutline outline = document.getDocumentCatalog().getDocumentOutline();
if (outline != null) {
    processBookmark(outline, 1); // 从第一页开始遍历书签
}

private void processBookmark(PDOutlineNode bookmark, int pageNum) {
    PDOutlineItem current = bookmark.getFirstChild();
    while (current != null) {
        String title = current.getTitle();
        System.out.println("书签标题：" + title);
        System.out.println("页码：" + pageNum);
        
        PDPageDestination destination = current.getDestination();
        if (destination instanceof PDPageFitDestination) {
            PDPageFitDestination fitDestination = (PDPageFitDestination) destination;
            pageNum = fitDestination.getPageNumber();
        }
        
        processBookmark(current, pageNum); // 递归处理子书签
        current = current.getNextSibling();
    }
}

在上述代码中，processBookmark()方法用于递归处理书签树。对于每个书签，我们可以通过getTitle()方法获取书签的标题，通过getPageNumber()方法获取书签所在的页码。如果书签有子书签，我们可以通过getNextSibling()方法获取下一个兄弟书签，并继续递归处理。

关闭文档：在完成对PDF文档的处理后，记得调用PDDocument对象的close()方法关闭文档，释放资源。

document.close();

使用PDFBox获取PDF中书签内容的页码可以帮助你实现一些功能，比如生成目录、跳转到指定页等。PDFBox还提供了其他丰富的功能，如文本提取、图像提取、PDF合并等，可以根据具体需求进行使用。

腾讯云相关产品中，可以使用腾讯云对象存储（COS）来存储和管理PDF文件，使用腾讯云函数计算（SCF）来实现PDF处理的自动化任务。你可以参考腾讯云COS（https://cloud.tencent.com/product/cos）和SCF（https://cloud.tencent.com/product/scf）的官方文档了解更多信息。

如何使用pdf框中的书签选择pdf页面？

、、

对不起，我是PDF box的新手，正在寻找如何使用书签名称获取特定pdf页面的解决方案？像下面的代码片段一样，我试图循环所有的页面，但坚持将书签与我需要的页面链接起来。有谁能帮忙吗？ import java.awt.print.PrinterException; import java.io.File; import java.io.IOException; import org.apache.pdfbox.cos.COSObject; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.P

浏览 10提问于2017-07-08得票数 1

回答已采纳

1回答

PDFBox:拆分PDF并添加书签IOException

、、

在我的项目中，我用书签分割了一个pdf文件。应该创建一个新的pdf文件，其中包含分裂的页面和一些新的书签。这导致了以下例外情况：线程"main“中的异常java.io.IOException: COSStream已关闭，无法读取。也许它的附件PDDocument已经关闭了？。如果我删除行outline.addLast(pagesOutline);，新的pdf包含分裂的页面(也不例外)，但显然不是书签。我想我添加书签的方式有问题。我的代码： private void tryCreatePDF(List<String> listOfBookmarks) throws I

浏览 3提问于2017-07-27得票数 2

回答已采纳

1回答

为什么在将页面大小调整为7.31x11大小后，一些内容会被裁剪？

、、

当我试图将页面大小调整为7.31x11时，该页面中的一些内容会从窗口中被裁剪掉。下面是我的输出文档的链接。下面是我的源代码 import java.awt.print.PrinterException; import java.io.File; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.common.PDRectangle; import

浏览 3提问于2017-07-10得票数 0

1回答

PDFBox列出页面的所有命名目的地

、、、

对于我的Java项目，我需要列出PDF页面的所有命名目的地。 PDF及其命名的目的地是用LaTeX (使用)创建的，例如： \documentclass[12pt]{article} \usepackage{hyperref} \begin{document} \hypertarget{myImportantString}{} % the anchor/named destination to be extracted "myImportantString" Empty example page \end{document} 如何使用PDFBox库版本2.0.11

浏览 0提问于2018-09-05得票数 1

回答已采纳

1回答

Apache PDFBox拒绝打开临时创建的PDF文件。

、、、、

我正在创建桌面JavaFX应用程序来查看PDF文件。PDF位于资源文件夹中。我将资源文件作为流读取，然后创建临时文件并使用它将内容转换为图像并显示为ImageView。 currentPdf = new File("current.pdf"); if (!currentPdf.exists()) { // In JAR InputStream inputStream = ClassLoader.getSystemClassLoader() .getResour

浏览 3提问于2016-01-12得票数 1

回答已采纳

2回答

尝试运行pdfbox程序时出错

、、、

我尝试从这个页面运行Pdfbox示例：，并从一个PDF文件中提取文本。当我尝试运行它时，我有错误： org.apache.pdfbox.exceptions.WrappedIOException at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:245) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1192) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.jav

浏览 6提问于2013-09-27得票数 0

4回答

Lucene与PDFBox获得一个空指针异常

、、、

我对PDFBox API感到沮丧。我所做的是： PDDocument pdfDocument = PDDocument.load(new File("text.pdf")); PDFTextStripper stripper = new PDFTextStripper(); String s = stripper.getText(pdfDocument); pdfDocument.close(); 但我得到了一个 Exception in thread "main" java.lang.NullPointerException at org.pdfbox.p

浏览 6提问于2013-10-13得票数 0

回答已采纳

1回答

PDFbox:创建PDF文档时出现零星异常

我正在使用PDFBox在一个循环中生成一堆发票。这在一般情况下是有效的，但不幸的是，我在循环中不时地得到以下异常。为失败的发票重新开始生成一次或两次，迟早会创建所有发票。 java.io.IOException: COSStream has been closed and cannot be read. Perhaps its enclosing PDDocument has been closed? at org.apache.pdfbox.cos.COSStream.checkClosed(COSStream.java:83) at org.apache.pdfbox.cos.COSSt

浏览 13提问于2019-01-30得票数 2

回答已采纳

1回答

不能将PDFBox org.apache.pdfbox.cos.COSInteger转换为org.apache.pdfbox.cos.COSDictionary

、

使用PDFBox 2.0.25，过程文档获取签名字典， try{ doc = PDDocument.load(inputFile); doc.getSignatureDictionaries() }catch(Exception e) { e.printStackTrace(); } 由扫描的生产者生成的文件： Foxit PhantomPDF Printer Version 6.1.0.0923 行doc = PDDocument.load(inputFile);中的警告消息 Object (140:0) at offset 4039608 does not end

浏览 16提问于2022-09-16得票数 0

回答已采纳

1回答

使用java读取pdf格式的表格

我想用java在现有的pdf文件中读取一个表。我可以使用下面的代码(apache PdfBox)从pdf中读取文本： File file=new File("ReadTest.pdf"); PDDocument pdfDocument = PDDocument.load(file); System.out.println("PDF loaded"); PDFTextStripperByArea stripper = new PDFTextStripperByArea(); stripper.setSortByPosition(true); PDFTex

浏览 0提问于2018-10-08得票数 1

1回答

"IOException: COSStream已关闭，无法读取“在添加PdfBox页面后试图保存

、、

我很难让这段代码正常工作。目标是将pdf与PDDocument对象中加载的pdf合并。我不想使用mergeUtility of PdfBox，因为它意味着关闭PDDocument对象。我有很多数据要处理，我使用一个循环来处理它。加载和关闭PDDocument将花费太多的时间和资源(也许我错了，但它的感觉是这样的)。这是我的方法： for (String path:pathList) { /* ... */ if(path.endsWith("pdf")){ File pdfToMerge = new File(path); tr

浏览 2提问于2019-07-30得票数 2

回答已采纳

3回答

Vbscript问题:在包装器类的帮助下执行vbscript

、、、

通过使用我尝试用VBScript执行的包装器，我已经创建了一个包装器类来使用PDFBox访问PDF表单。下面是我启用了COM的包装器类(类库 using System; using System.Collections.Generic; using System.Linq; using System.Text; using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.util; using org.apache.pdfbox.pdmodel.interactive.form; namespace PDF.API { publ

浏览 0提问于2013-03-20得票数 0

回答已采纳

1回答

使用Java从PDF文件中提取大纲(或书签)

、、、

我正在使用从PDF文件中提取大纲(书签)信息，这在同一站点中也有解释。然而，我有问题不提取，而是生成合格的网址(foo.pdf#page=22777&zoom=2,2,777)打开的PDF在这些书签。有时PDFBox找不到放置书签的页面(即页码、左坐标或上坐标错误)。有没有人知道有没有能做到这一点的PDF库(最好是用Java)？谢谢。诚挚的问候, 亚历山大。

浏览 3提问于2010-08-12得票数 0

回答已采纳

1回答

提取AnnotationLinks的pdf页面和矩形的PDFbox

、

我必须提取PDF文件中的页码和链接的坐标。我发现PDFbox可以成为我可以使用的工具。但是，我找不到完全用于此目的的示例代码。PDFTextStripperByArea似乎是用来提取特定区域内的文本的。而我需要的是每个AnnotationLink的页码和矩形作为输出，而不是实际的内容(文本)。下面是我尝试基于参考示例()创建的Java代码。但是我得到了一个错误信息"Cannot cast object 'org.apache.pdfbox.pdmodel.PDPageTree@5cad4cc0‘with class 'org.apache.pdfbox.pdmode

浏览 30提问于2020-06-02得票数 2

1回答

将itext替换为pdfbox性能

、

我正在评估，以取代我们的pdf处理从itext到pdfbox。我用一个页面(94 in、469 in、937 in)对200个pdfs进行了一些测试，并将它们合并为应用程序中的一个pdf。PDFBox版本: 2.0.23。itext版本: 2.1.7。以下是测试结果：以下是itext实现： byte[] l_PDFPage = null; PdfReader l_PDFReader = null; PdfCopy l_Copier = null; Document l_PDFDocument = null; OutputStream l_Stream = new FileOutpu

浏览 5提问于2021-06-10得票数 1

2回答

PDFBox 2.0读取单个页面并将其写入/保存到新文件

、

基于，我试着阅读pdf文件中的每一页。这样做的背景是，我试图用完整的空白页替换不包含任何文本内容但包含图像的页面。其背景是pdf可以包含可能包含图像的空白页。这些页面确实需要在那里，因为它们即将使用双工打印。但是使用PDFBox 2.0，这似乎要复杂一些，因为每次我试图保存新生成的PDDocument时，都会遇到堆栈跟踪。这应该与新版本的PDFBox 2.0有什么不同吗？我是否应该避免关闭PDDocument buffer，因为通过把它排除在外，示例程序就会毫无例外地运行，这会产生什么潜在的副作用呢？这里可以看到一个简单的运行示例。您可以使用任意pdf文件，因为结果将是一个pdf文件，其页

浏览 7提问于2016-04-19得票数 2

回答已采纳

5回答

PDFbox遇到错误(如何计算非简单字体的位置)

、、、、

我使用pdfbox来填充pdf文件中的一个表单，应用程序能够显示表单上可用字段的数量，但它返回以下错误 Messages: Error: Don't know how to calculate the position for non-simple fonts File: org/apache/pdfbox/pdmodel/interactive/form/PDAppearance.java Line number: 616 码 ..... while (fieldsIter.hasNext()) {

浏览 9提问于2013-07-01得票数 2

回答已采纳

1回答

PDFBox表单填充- saveIncremental不工作

、、

我有一个pdf文件与一些表单字段，我想填补从java。现在我只想填一张我正在找到的名字的表格。我的代码如下所示： File file = new File("c:/Testy/luxmed/Skierowanie3.pdf"); PDDocument document = PDDocument.load(file); PDDocumentCatalog doc = document.getDocumentCatalog(); PDAcroForm Form = doc.getAcroForm(); String formName = &

浏览 1提问于2017-03-15得票数 4

1回答

pdfbox -添加可视签名。COSObject铸造误差

、、、、

在org.apache.pdfbox.pdmodel.interactive.digitalsignature.SignatureOptions中有setVisualSignature方法。我可以从具有视觉签名外观的其他pdf流创建可视签名(以复制外观)。 1)我创建了一个签名外观pdf，并使用setVisualSignature()方法，我设法复制视觉签名。万事大吉； 2)改变PDFBox的视觉签名(改变图像)。要获得COSObject： Iterator<Entry<COSObjectKey, Long>> xrefEntriesIt = doc.getDocume

浏览 4提问于2013-07-03得票数 0

1回答

pdfBox返回差编码字符器

我有一个pdf ，我想从中提取单词(包含波斯单词。).i使用PDFBox库获取words.here是我的代码： package ir.blog.stack; import java.io.File; import java.io.IOException; import org.apache.pdfbox.cos.COSDocument; import org.apache.pdfbox.io.RandomAccessFile; import org.apache.pdfbox.pdfparser.PDFParser; import org.apache.pdfbox.pdmodel.PDD

浏览 3提问于2016-12-17得票数 2

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用PDFBox获取PDF中书签内容的页码

相关·内容

如何使用pdf框中的书签选择pdf页面？

PDFBox:拆分PDF并添加书签IOException

为什么在将页面大小调整为7.31x11大小后，一些内容会被裁剪？

PDFBox列出页面的所有命名目的地

Apache PDFBox拒绝打开临时创建的PDF文件。

尝试运行pdfbox程序时出错

Lucene与PDFBox获得一个空指针异常

PDFbox:创建PDF文档时出现零星异常

不能将PDFBox org.apache.pdfbox.cos.COSInteger转换为org.apache.pdfbox.cos.COSDictionary

使用java读取pdf格式的表格

"IOException: COSStream已关闭，无法读取“在添加PdfBox页面后试图保存

Vbscript问题:在包装器类的帮助下执行vbscript

使用Java从PDF文件中提取大纲(或书签)

提取AnnotationLinks的pdf页面和矩形的PDFbox

将itext替换为pdfbox性能

PDFBox 2.0读取单个页面并将其写入/保存到新文件

PDFbox遇到错误(如何计算非简单字体的位置)

PDFBox表单填充- saveIncremental不工作

pdfbox -添加可视签名。COSObject铸造误差

pdfBox返回差编码字符器

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐