最近,我很难找到使用PDFBox从PDF中解析出来的字符串。我的解决方案可能对其他人有帮助。使用这样的PDFBox从PDF中获得了一个文本列表(为了简洁起见省略了例外情况):PDDocument document在将每个字符转换为十六进制时,空间字符显然是问题所在:
Line (Parsed from PDF with PDF Box): EMERA INCORPORAT
我有一个PDF格式,这是由LiberOffice绘图4.1.0.4创建。表单包含文本字段、复选框和单选按钮 在我为字段设置值并使用PDFBox(2.0.21)拼合表单后,无法显示字段值 我认为这可能是字段注释的外观问题,但我不知道如何正确处理 Test PDF importorg.apache.commons.lang3.StringUtils;import o