我正在试着把PdfBox (我最喜欢的书,如果重要的话)转换成文本,我检查了iText和Apache pdf。我看到了一个非常大的性能差异:使用iText需要2:521,而使用PdfBox: 6:117。这是我的PdfBOx代码
PDFTextStripper stripper = new PDFTextStripper();
BUFFER.append(stripper.getText(PDDocument.load(pdf)));
这是给iText的
PdfReader reader = new PdfReader(pdf);
for (int i = 1; i <= reader.
对于我的Java项目,我需要列出PDF页面的所有命名目的地。
PDF及其命名的目的地是用LaTeX (使用)创建的,例如:
\documentclass[12pt]{article}
\usepackage{hyperref}
\begin{document}
\hypertarget{myImportantString}{} % the anchor/named destination to be extracted "myImportantString"
Empty example page
\end{document}
如何使用PDFBox库版本2.0.11
是否有方法向Apache中添加额外的字体样式?
我们目前正尝试在我们的系统中打印PDF(目前正在使用)。我一直在研究各种替代品(,,)
我们希望使用一个免费的GPL兼容库,因此我们倾向于使用pdfbox。我已经能够写一些样本代码打印出来的pdf‘工作’。见下文:
PDDocument doc;
try {
doc = PDDocument.load("test.pdf");
doc.print();
} catch (Exception e) {
// Come up with better thing to do on
Java: 1.8
pdfbox: 2.0.18
印前检查: 2.0.18
我可以创建一个工作的PDF,但我们的要求是它必须符合PDF/A标准。我已经设法修复了除元数据之外的所有验证问题。
在没有添加任何元数据的情况下,我得到了错误:
The fileexample.pdf is not valid, error(s) :
7.1 : Error on MetaData, Metadata is not a stream
下面是一些例子(在v2+下没有相关的文档),我想出了以下几点:
PDMetadata documentMetadata = new PDMetadata(document);