我需要编写一个java类来比较两个pdf文件,并使用某种突出显示来指出差异(文本/位置/字体中的差异)。我最初的方法是使用pdfbox解析文件,并使用某种数据结构存储提取的文本,以帮助我进行比较。有没有java库可以提取文本,保存格式,帮助我建立索引和comparing.Can我使用tika/ google的diff-match来做这件事。tika提取xhtml格式的文本,但是如何比较两个xhtml文件呢?
发布于 2015-10-10 05:17:57
我不得不在我的项目中比较成吨的pdf文件。我的要求是逐个像素地比较pdf文件。经过大量的谷歌搜索,由于我找不到任何好的东西,我最终为此创建了我自己的pdf实用程序。
有关更多详细信息和jar下载,请查看此博客。
http://www.testautomationguru.com/introducing-pdfutil-to-compare-pdf-files-extract-resources/
发布于 2013-08-14 15:43:35
正如您所提到的,使用pdfbox提取其内容,然后使用google's diff进行比较。
发布于 2018-03-01 15:16:48
我不知道你是否能解决你的问题。以下是我解决这个问题的方法。
首先,让我们使用Pdf2dom将PDF转换为HTML,然后使用daisydiff生成HTML格式的比较报告。如果您需要PDF格式,请将HTML报表转换为PDF格式。但请记住,由于PDF中的复杂性,PDF到HTML的转换并不是100%准确。您还可以尝试另一种将PDF转换为图像的方法,然后逐个像素进行比较并生成PDF报告。您可以尝试使用PDFcompare库。在我看来,它很有前途。如果有人已经尝试过了,请告诉我。
https://stackoverflow.com/questions/18225774
复制相似问题