首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >(以编程方式)比较PDF的可靠方法?

(以编程方式)比较PDF的可靠方法?
EN

Stack Overflow用户
提问于 2010-09-30 21:18:29
回答 4查看 17.3K关注 0票数 9

可能重复: 用于比较大量PDF文件的工具?

我是在一个经典的场景,业务给你一堆新的pdf表格,为新的一年,没有任何修改说明,你应该找出什么是不同的前一年的。

我在这里说的是大量的表单,所以我试图找到一种比较PDF的方法来描述差异,而不让人手动地遍历其中的每一个。

我的想法是从PDF中提取所有文本并将其转储到.txt中,然后对文本文件运行差异,但这听起来很可怕。

我的问题是以编程的方式说的,但我很乐意使用任何可靠的工具来比较PDF,主要是想从人们的经验中获得一些想法。也愿意考虑任何编程解决方案(最好是在C#中,但请输出,任何的想法)。

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2010-09-30 21:43:50

有相当多的软件产品声称可以区分pdfs。我从来没有必要使用它,但如果这是一个反复出现的过程,我认为你的公司投资其中之一是明智的。只是谷歌的"pdf差异“,一堆潜在的应用程序。

此外,您的情况与这个问题非常相似:用于比较大量PDF文件的工具? --我认为它的讨论可能会有所帮助。

票数 8
EN

Stack Overflow用户

发布于 2010-10-02 03:47:10

我是Docotic.Pdf库的开发人员。我们在单元测试中使用PDF比较来检查测试是否按预期生成PDF。PDF是一个特殊对象的集合,我们比较了所有的PDF对象,忽略了一些属性,比如拖车ID和创建者信息。此实现工作正常。

您可以尝试PdfDocument.DocumentsAreEqual方法。此方法只是告诉您文档是相等的,没有特定的差异。如果您需要更多功能,可以与我们联系。

票数 7
EN

Stack Overflow用户

发布于 2010-09-30 21:50:31

我采用了从PDF中获取原始数据的方法,然后使用Word或TortiseSVN,或者WinMerge,etc...to来处理比较部分。在我的例子中,我在RichTextBox中做了C#...coloring的差异比较,etc...since我们想在我们的应用程序中实现这一切。

我就是这么做的..。当我试图比较混合文档、Word和PDF时,PDF比较

不过,我建议使用PDFBox进行解析,再多一点elegant...although iTextSharp就可以了.

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3834928

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档