问题
我有500+ PDF文件,我需要搜索一组关键字的实例,并对每个关键字在文件中使用的次数进行评分(理想情况下,将其转储到CSV中)。
例如,我可以拥有以下内容
keyword-set-1 = "foo" "bar";
keyword-set-2 = "jon" "doe";
和一个PDF文件,其中包含以下文本
"jon doe and mary doe are both at the bar."
这会给我以下分数
keyword-set-1 = 3 (jon, doe and doe)
keyword-set-2 = 1 (bar)
我已经做了什么,
如果我搜索一个纯文本文件,我已经找到了多种方法,可以在PHP或Java中这样做。然而,我还没有找到一个PDF文件的解决方案。我考虑过使用PDF矿工将所有PDF转换成纯文本,但如果可能的话,我更愿意避免这样做。
PDF是高质量的,而不是扫描表格。
发布于 2014-02-16 15:38:43
你能说明PDF的质量吗?他们在扫描表格吗?那么您可能需要使用OCR。我可以推荐Tesseract (还需要像ImageMagick这样的图像转换器),它将PDF转换成HTML文件。然后,您可以很容易地循环使用Jsoup的单词。
如果没有扫描,您可以使用PDFBox。这也是一个Java库。
Tesseract:https://code.google.com/p/tesseract-ocr/ PDFBox:http://pdfbox.apache.org/
https://stackoverflow.com/questions/21804570
复制相似问题