我正在使用将PDF文件解析为文本。一些PDF文件可以包含扫描文档。Apache使用Tesseract将文本识别为图像。但是没有带有Tesseract的jar库,用户应该在操作系统中安装Tesseract作为独立的应用程序。如果不安装Tesseract,我如何使用Apache中的Tesseract?:428)
at org.apache.t
目标是将pdf与PDDocument对象中加载的pdf合并。我不想使用mergeUtility of PdfBox,因为它意味着关闭PDDocument对象。我有很多数据要处理,我使用一个循环来处理它。加载和关闭PDDocument将花费太多的时间和资源(也许我错了,但它的感觉是这样的)。这是我的方法: /
我开始熟悉PDFBox的口味了。我想知道是否有一种方法可以将pdf布局元素放到PDDocument对象中。pdf-布局元素使用文档作为父元素,PDFBox使用PDDocument作为父元素。new Paragraph();//Im looking for something like doc.add(shape);
使用<em
我有这个pdf格式的大打印文件,它包含5544页,大小约为36mb。该文件由MS Word 2010创建,每个字母/文档上只包含文本和徽标。当我将所有的字母合并到一个新的pdf打印文件中时,仍然包含5544页,文件的大小增长到396mb。所有文本提取、拆分和合并都是通过从PHP调用ApachePDFBox命令行工具来执行的,但从控制台运行时结果是相同的。
你知道如何减小