文章/答案/技术大牛

发布

社区首页 >问答首页 >以编程方式搜索多个PDF文档以获得一系列关键字

问以编程方式搜索多个PDF文档以获得一系列关键字
EN

Stack Overflow用户

提问于 2014-02-15 22:33:25

回答 1查看 204关注 0票数 0

问题

我有500+ PDF文件，我需要搜索一组关键字的实例，并对每个关键字在文件中使用的次数进行评分(理想情况下，将其转储到CSV中)。

例如，我可以拥有以下内容

keyword-set-1 = "foo" "bar";
keyword-set-2 = "jon" "doe";

和一个PDF文件，其中包含以下文本

"jon doe and mary doe are both at the bar."

这会给我以下分数

keyword-set-1 = 3 (jon, doe and doe)
keyword-set-2 = 1 (bar)

我已经做了什么，

如果我搜索一个纯文本文件，我已经找到了多种方法，可以在PHP或Java中这样做。然而，我还没有找到一个PDF文件的解决方案。我考虑过使用PDF矿工将所有PDF转换成纯文本，但如果可能的话，我更愿意避免这样做。

PDF是高质量的，而不是扫描表格。

pdf

回答 1

Stack Overflow用户

发布于 2014-02-16 15:38:43

你能说明PDF的质量吗？他们在扫描表格吗？那么您可能需要使用OCR。我可以推荐Tesseract (还需要像ImageMagick这样的图像转换器)，它将PDF转换成HTML文件。然后，您可以很容易地循环使用Jsoup的单词。

如果没有扫描，您可以使用PDFBox。这也是一个Java库。

Tesseract：https://code.google.com/p/tesseract-ocr/ PDFBox：http://pdfbox.apache.org/

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21804570

复制

相似问题

问以编程方式搜索多个PDF文档以获得一系列关键字
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问以编程方式搜索多个PDF文档以获得一系列关键字EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问以编程方式搜索多个PDF文档以获得一系列关键字
EN