PDF/A是一种ISO标准化版本的便携式文件格式(PDF),专门用于电子文件的数字保存。
(https://en.wikipedia.org/wiki/PDF/A)
这很好,但是是否有任何免费的工具来检查单个PDF文件是否符合PDF/A次级标准(PDF/A-1、PDF/A2、PDF/A-3)?
在这 (旧版)网站上,我找到了一份商业工具列表:
然而,鉴于这一问题的重要性,我希望有某种可以免费使用的工具。作为一种愿景,如果一个成熟的开源PDF工具包(如波普尔 )支持这样的分析,那就太好了。
发布于 2017-05-17 03:53:31
您可以使用veraPDF:





Usage: veraPDF [options] FILES
Options:
-x, --extract
Extracts and reports PDF features.
Default: false
--fixmetadata
Performs metadata fixes.
Default: false
-f, --flavour
Chooses built-in Validation Profile flavour, e.g. '1b'. Alternatively,
supply '0' or no argument for automatic flavour detection based on a file
's
metadata.
Default: 0
Possible Values: [0, 1a, 1b, 2a, 2b, 2u, 3a, 3b, 3u]
--format
Chooses output format.
Default: mrr
Possible Values: [xml, mrr, text]
-h, --help
Shows this message and exits.
Default: false
-l, --list
Lists built-in Validation Profiles.
Default: false
--maxfailures
Sets maximum amount of failed checks.
Default: -1
--maxfailuresdisplayed
Sets maximum amount of failed checks displayed for each rule.
Default: 100
-o, --off
Turns off PDF/A validation
Default: false
--policyfile
Select a policy schematron or XSL file.
--prefix
Sets file name prefix for any fixed files.
Default: veraFixMd_
-p, --profile
Loads a Validation Profile from given path and exits if loading fails.
This overrides any choice or default implied by the -f / --flavour option
.
-r, --recurse
Recurses through directories. Only files with .pdf extensions are
processed.
Default: false
--savefolder
Sets output directory for any fixed files.
Default: <empty string>
--success, --passed
Logs successful validation checks.
Default: false
-v, --verbose
Adds failed test information to text output.
Default: false
--version
Displays veraPDF version information.
Default: false
veraPDF is processing STDIN and is expecting an EOF marker.
If this isn't your intention you can terminate by typing an EOF equivalent:
- Linux or Mac users should type CTRL-D
- Windows users should type CTRL-Z发布于 2015-03-30 23:31:51
有JHove。JHove是一个用于“验证”PDF/A遵从性的开源工具--在一定程度上。许多图书馆/机构都在使用它,因此从这个角度来看,这是对我问题的一个很好的回答。
最近,发表了一篇关于现代文档存储系统中的JHove的文章:http://www.pdfa.org/wp-content/uploads/2014/12/PDF_一个_JHOVE_弗里泽_28112014_en1.pdf。
引证如下:
JHOVE是一个开源工具,用于识别、描述和验证常见格式,如pdf、tiff、jpeg、aiff和wave。JHOVE包含12种不同文件格式的验证模块,包括PDF。
和
S:许多内存机构主要使用PDF格式,而它们的文件质量并不总是足以将它们转换成PDF/A的理由,我认为标准的PDF验证器仍然像以前一样有必要。一般来说,JHOVE将继续被使用,尽管它有局限性,关于给定文件的可存档性的决定将取决于JHOVE给出的结果。只要用户理解其错误报告并知道解决这些错误的方法,JHOVE仍然是有用的。到目前为止,关于这个问题的文件还不多。雀巢(AG格式认可)和开放保护基金会都致力于尽快改善这种状况。
下面是JHove错误消息的列表:http://wiki.opf-labs.org/display/KB/JHOVE+Error+Messages
发布于 2015-10-27 12:01:54
您可能需要查看(开放源码) Apache PDFBox库:
这包括一个PDF/A验证器(仅PDF/A-1b),这是相当不错的。我建议查看PDFBox 2.0.0 (目前它是一个发布候选版本);您可以在这里找到它:
https://pdfbox.apache.org/download.cgi#20x
然后下载预构建的飞行前独立二进制文件(当前的预飞前应用程序-2.0.0-RC1.jar)。
下面的博客文章总结了作为一个研究项目的一部分,我们在Apache预飞中所做的一些工作(它包含了一些您可能认为有用的其他资源的链接):
https://www.bitsgalore.org/2015/07/08/why-pdfa-validation-matters-part-2
顺便提一下,布鲁诺·洛瓦吉提到了一个新的欧盟资助的验证器。这现在被称为VeraPDF;他们刚刚(2015年10月)发布了一个早期版本,完全涵盖PDF/a1b (以及部分支持PDF/A-1a、PDF/A-2和PDF/A-3)。更多信息在这里:
http://verapdf.org/2015/11/02/complete-pdfa-1b-coverage-now-available-in-0-6-release-of-verapdf/
这还处于初级阶段,但他们似乎进展很快,所以肯定有一些值得关注的地方。
https://softwarerecs.stackexchange.com/questions/18161
复制相似问题