首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >比较大量PDF文件的工具?

比较大量PDF文件的工具?
EN

Stack Overflow用户
提问于 2008-09-28 11:02:13
回答 9查看 96.4K关注 0票数 84

我需要比较大量的PDF文件的光学内容。由于PDF文件是在不同的平台上创建的,并且软件的版本不同,因此存在结构上的差异。例如:

  • 文本的分块可以是不同的
  • 写顺序可以是不同的
  • 位置可以是不同的像素

它应该像人类一样比较内容,而不是内部结构。我想测试我们使用的PDF生成器的不同版本之间的回归。

EN

回答 9

Stack Overflow用户

回答已采纳

发布于 2010-02-16 16:34:47

因为没有这样的工具,所以我们已经编写了一个。您可以下载i-net PDF content comparer并使用它。我希望这能帮助其他人解决同样的问题。如果您对它有问题,或者您对我们有反馈,那么您可以联系我们的支持。

票数 39
EN

Stack Overflow用户

发布于 2011-05-03 19:49:16

实际上有一个diffpdf工具。

http://www.qtrac.eu/diffpdf.html

它的缺点是,当添加内容使新文本部分转移到新页面时,它不会做出很好的反应。例如,如果要将旧的第4页与第5页的末尾和第6页的开头进行比较,则需要移动参数以分别比较这两个分片。

票数 20
EN

Stack Overflow用户

发布于 2010-02-10 16:59:39

我使用了一个自制的脚本,

  • 将两个
  • 中的所有页面转换为位图PDF 1的页面从PDF白色到PDF 2的透明页面
  • 将PDF 2中的每个页面覆盖在PDF 1的相应页面之上
  • 在多核上并行运行转换/着色和叠加

使用的软件:

用于着色、透明度和overlay

  • inotify的
  • GhostScript,用于同步支持PNG的并行processes
  • any图像查看器,用于查看结果

优点:

使用的

  • simple implementation
  • all工具是开源的
  • ,非常适合查找布局

中的细微差别

缺点:

  • 转换很慢
  • PDF之间的主要差异(例如分页)导致混乱
  • 位图不适用于黑白文本和图表
  • 没有易于使用的

<

  • >F241

我一直在寻找一个工具,可以做同样的PDF/PostScript级别。

下面是我们的脚本调用实用程序的方式(请注意,ImageMagick在幕后使用GhostScript进行PDF->PNG转换):

代码语言:javascript
复制
$ convert -density 150x150 -fill red -opaque black +antialias 1.pdf back%02d.png
$ convert -density 150x150 -transparent white +antialias 2.pdf front%02d.png
$ composite front01.png back01.png result01.png # do this for all pairs of images
票数 13
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/145657

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档