首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用java比较两个pdf文件(方法)

使用java比较两个pdf文件(方法)
EN

Stack Overflow用户
提问于 2013-08-14 15:36:33
回答 4查看 32.2K关注 0票数 1

我需要编写一个java类来比较两个pdf文件,并使用某种突出显示来指出差异(文本/位置/字体中的差异)。我最初的方法是使用pdfbox解析文件,并使用某种数据结构存储提取的文本,以帮助我进行比较。有没有java库可以提取文本,保存格式,帮助我建立索引和comparing.Can我使用tika/ google的diff-match来做这件事。tika提取xhtml格式的文本,但是如何比较两个xhtml文件呢?

EN

回答 4

Stack Overflow用户

发布于 2015-10-10 05:17:57

我不得不在我的项目中比较成吨的pdf文件。我的要求是逐个像素地比较pdf文件。经过大量的谷歌搜索,由于我找不到任何好的东西,我最终为此创建了我自己的pdf实用程序。

有关更多详细信息和jar下载,请查看此博客。

http://www.testautomationguru.com/introducing-pdfutil-to-compare-pdf-files-extract-resources/

票数 10
EN

Stack Overflow用户

发布于 2013-08-14 15:43:35

正如您所提到的,使用pdfbox提取其内容,然后使用google's diff进行比较。

票数 2
EN

Stack Overflow用户

发布于 2018-03-01 15:16:48

我不知道你是否能解决你的问题。以下是我解决这个问题的方法。

首先,让我们使用Pdf2dom将PDF转换为HTML,然后使用daisydiff生成HTML格式的比较报告。如果您需要PDF格式,请将HTML报表转换为PDF格式。但请记住,由于PDF中的复杂性,PDF到HTML的转换并不是100%准确。您还可以尝试另一种将PDF转换为图像的方法,然后逐个像素进行比较并生成PDF报告。您可以尝试使用PDFcompare库。在我看来,它很有前途。如果有人已经尝试过了,请告诉我。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18225774

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档