可能重复: 用于比较大量PDF文件的工具?
我是在一个经典的场景,业务给你一堆新的pdf表格,为新的一年,没有任何修改说明,你应该找出什么是不同的前一年的。
我在这里说的是大量的表单,所以我试图找到一种比较PDF的方法来描述差异,而不让人手动地遍历其中的每一个。
我的想法是从PDF中提取所有文本并将其转储到.txt中,然后对文本文件运行差异,但这听起来很可怕。
我的问题是以编程的方式说的,但我很乐意使用任何可靠的工具来比较PDF,主要是想从人们的经验中获得一些想法。也愿意考虑任何编程解决方案(最好是在C#中,但请输出,任何的想法)。
发布于 2010-09-30 21:43:50
有相当多的软件产品声称可以区分pdfs。我从来没有必要使用它,但如果这是一个反复出现的过程,我认为你的公司投资其中之一是明智的。只是谷歌的"pdf差异“,一堆潜在的应用程序。
此外,您的情况与这个问题非常相似:用于比较大量PDF文件的工具? --我认为它的讨论可能会有所帮助。
发布于 2010-10-02 03:47:10
我是Docotic.Pdf库的开发人员。我们在单元测试中使用PDF比较来检查测试是否按预期生成PDF。PDF是一个特殊对象的集合,我们比较了所有的PDF对象,忽略了一些属性,比如拖车ID和创建者信息。此实现工作正常。
您可以尝试PdfDocument.DocumentsAreEqual方法。此方法只是告诉您文档是相等的,没有特定的差异。如果您需要更多功能,可以与我们联系。
发布于 2010-09-30 21:50:31
我采用了从PDF中获取原始数据的方法,然后使用Word或TortiseSVN,或者WinMerge,etc...to来处理比较部分。在我的例子中,我在RichTextBox中做了C#...coloring的差异比较,etc...since我们想在我们的应用程序中实现这一切。
我就是这么做的..。当我试图比较混合文档、Word和PDF时,PDF比较。
不过,我建议使用PDFBox进行解析,再多一点elegant...although iTextSharp就可以了.
https://stackoverflow.com/questions/3834928
复制相似问题