文章/答案/技术大牛

发布

社区首页 >问答首页 >使用java比较两个pdf文件(方法)

问使用java比较两个pdf文件(方法)
EN

Stack Overflow用户

提问于 2013-08-14 15:36:33

回答 4查看 32.2K关注 0票数 1

我需要编写一个java类来比较两个pdf文件，并使用某种突出显示来指出差异(文本/位置/字体中的差异)。我最初的方法是使用pdfbox解析文件，并使用某种数据结构存储提取的文本，以帮助我进行比较。有没有java库可以提取文本，保存格式，帮助我建立索引和comparing.Can我使用tika/ google的diff-match来做这件事。tika提取xhtml格式的文本，但是如何比较两个xhtml文件呢？

java

pdfbox

apache-tika

回答 4

Stack Overflow用户

发布于 2015-10-10 05:17:57

我不得不在我的项目中比较成吨的pdf文件。我的要求是逐个像素地比较pdf文件。经过大量的谷歌搜索，由于我找不到任何好的东西，我最终为此创建了我自己的pdf实用程序。

有关更多详细信息和jar下载，请查看此博客。

http://www.testautomationguru.com/introducing-pdfutil-to-compare-pdf-files-extract-resources/

票数 10

Stack Overflow用户

发布于 2013-08-14 15:43:35

正如您所提到的，使用pdfbox提取其内容，然后使用google's diff进行比较。

票数 2

Stack Overflow用户

发布于 2018-03-01 15:16:48

我不知道你是否能解决你的问题。以下是我解决这个问题的方法。

首先，让我们使用Pdf2dom将PDF转换为HTML，然后使用daisydiff生成HTML格式的比较报告。如果您需要PDF格式，请将HTML报表转换为PDF格式。但请记住，由于PDF中的复杂性，PDF到HTML的转换并不是100%准确。您还可以尝试另一种将PDF转换为图像的方法，然后逐个像素进行比较并生成PDF报告。您可以尝试使用PDFcompare库。在我看来，它很有前途。如果有人已经尝试过了，请告诉我。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18225774

复制

相似问题

问使用java比较两个pdf文件(方法)
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用java比较两个pdf文件(方法)EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用java比较两个pdf文件(方法)
EN