首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >以编程方式搜索多个PDF文档以获得一系列关键字

以编程方式搜索多个PDF文档以获得一系列关键字
EN

Stack Overflow用户
提问于 2014-02-15 22:33:25
回答 1查看 204关注 0票数 0

问题

我有500+ PDF文件,我需要搜索一组关键字的实例,并对每个关键字在文件中使用的次数进行评分(理想情况下,将其转储到CSV中)。

例如,我可以拥有以下内容

代码语言:javascript
运行
复制
keyword-set-1 = "foo" "bar";
keyword-set-2 = "jon" "doe";

和一个PDF文件,其中包含以下文本

代码语言:javascript
运行
复制
"jon doe and mary doe are both at the bar."

这会给我以下分数

代码语言:javascript
运行
复制
keyword-set-1 = 3 (jon, doe and doe)
keyword-set-2 = 1 (bar)

我已经做了什么,

如果我搜索一个纯文本文件,我已经找到了多种方法,可以在PHP或Java中这样做。然而,我还没有找到一个PDF文件的解决方案。我考虑过使用PDF矿工将所有PDF转换成纯文本,但如果可能的话,我更愿意避免这样做。

PDF是高质量的,而不是扫描表格。

EN

回答 1

Stack Overflow用户

发布于 2014-02-16 15:38:43

你能说明PDF的质量吗?他们在扫描表格吗?那么您可能需要使用OCR。我可以推荐Tesseract (还需要像ImageMagick这样的图像转换器),它将PDF转换成HTML文件。然后,您可以很容易地循环使用Jsoup的单词。

如果没有扫描,您可以使用PDFBox。这也是一个Java库。

Tesseract:https://code.google.com/p/tesseract-ocr/ PDFBox:http://pdfbox.apache.org/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21804570

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档