我正在用python编写一个程序,可以读取pdf文档,从文档中提取文本,并使用提取的文本重命名文档。首先,扫描的pdf文档是不可搜索的。我想把pdf转换成可搜索的pdf在Python上,而不是使用谷歌文档,Cisdem pdf转换器。
我已经读到了ocrmypdf模块,可以用来解决这个问题。但是,由于我的知识有限,我不知道如何编写代码。
我期望输出将扫描的pdf转换为可搜索的pdf。
发布于 2019-10-07 20:22:33
我建议通过turoial工作,可能会花你一些时间,但它应该是值得的。
我不太清楚你到底想要什么。在我的项目中,下面的设置在大多数情况下都工作得很好。
import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)
发布于 2021-07-06 21:03:21
这将分两步完成。
谢谢,如果你有任何问题,请提出来。
https://stackoverflow.com/questions/57398839
复制相似问题