问如何搜索一组pdf，只有一个页面的图像片段
EN

Stack Overflow用户

提问于 2020-04-07 22:24:44

回答 1查看 31关注 0票数 0

主要思想是这样的，我有大量IGCSE过去的论文，我需要找出一个特定问题来自哪一篇论文，而我所拥有的只是一个问题的屏幕截图。我想做一个程序，可以输入一个问题的图像，然后扫描一组pdf来找到所说的问题，然后输出包含所说问题的pdf。我有编程经验，但我有点纠结于如何处理手头的问题。

我尝试过的解决方案：

我试着把pdf合并成一个mega pdf，这样我就可以搜索mega pdf了，但不能这样做，因为文件太大了。

我认为解决方案可能会起作用，但不确定：

编写一个程序来读取每个pdf文件以查找图像中的关键字。

回答已采纳

发布于 2020-04-07 22:50:44

您是否尝试了中的步骤

https://automatetheboringstuff.com/chapter13/

？-将所有pdf放在同一文件夹中-对于每个pdf，浏览每一页-执行extractText() -使用正则表达式或其他方法来解析该extractText以查找问题字符串，如果找到，则输出pdf/页面

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61082289

复制

相似问题

问如何搜索一组pdf，只有一个页面的图像片段EN