我正在做一些OCRing PDF的工作,我很好奇是否有一种方法可以检查一个PDF是否已经从Word (或Google Docs)导出。我可以检查PDF是否已经用Xpdf的pdffonts进行了OCR。我知道Word和Google Docs会自动OCR导出的PDF,所以如果我发现PDF没有OCR,我就知道它没有导出。但是,如果它已经光学字符识别,有没有办法检查的PDF是否从Word/Google Docs导出,而不是简单的OCRd与类似的程序?具体地说,我使用的是JavaScript,但任何信息都是有用的。
发布于 2013-06-20 04:04:02
对于任何正在查找的人来说,我现在所做的是使用带有-meta标志的pdfinfo (来自Xpdf)来检查PDF是否有XMP元数据。从Word和Google Docs导出的PDF没有此元数据,但其他PDF有。
https://stackoverflow.com/questions/17094800
复制相似问题