主要思想是这样的,我有大量IGCSE过去的论文,我需要找出一个特定问题来自哪一篇论文,而我所拥有的只是一个问题的屏幕截图。我想做一个程序,可以输入一个问题的图像,然后扫描一组pdf来找到所说的问题,然后输出包含所说问题的pdf。我有编程经验,但我有点纠结于如何处理手头的问题。
我尝试过的解决方案:
我试着把pdf合并成一个mega pdf,这样我就可以搜索mega pdf了,但不能这样做,因为文件太大了。
我认为解决方案可能会起作用,但不确定:
编写一个程序来读取每个pdf文件以查找图像中的关键字。
发布于 2020-04-07 22:50:44
您是否尝试了中的步骤
https://automatetheboringstuff.com/chapter13/
?-将所有pdf放在同一文件夹中-对于每个pdf,浏览每一页-执行extractText() -使用正则表达式或其他方法来解析该extractText以查找问题字符串,如果找到,则输出pdf/页面
https://stackoverflow.com/questions/61082289
复制相似问题