最近,我很难找到使用PDFBox从PDF中解析出来的字符串。我的解决方案可能对其他人有帮助。使用这样的PDFBox从PDF中获得了一个文本列表(为了简洁起见省略了例外情况):PDDocument document在将每个字符转换为十六进制时,空间字符显然是问题所在:
Line (Parsed from PDF with PDF Box)
我开始熟悉PDFBox的口味了。我想知道是否有一种方法可以将pdf布局元素放到PDDocument对象中。pdf-布局元素使用文档作为父元素,PDFBox使用PDDocument作为父元素。new Paragraph();//Im looking for something like doc.add(shape);
org.apache.pdfbox</