首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在Python (Mac)中将扫描的PDF转换为可搜索的PDF?例如OCRMYPDF模块

如何在Python (Mac)中将扫描的PDF转换为可搜索的PDF?例如OCRMYPDF模块
EN

Stack Overflow用户
提问于 2019-08-08 00:34:17
回答 2查看 2.7K关注 0票数 4

我正在用python编写一个程序,可以读取pdf文档,从文档中提取文本,并使用提取的文本重命名文档。首先,扫描的pdf文档是不可搜索的。我想把pdf转换成可搜索的pdf在Python上,而不是使用谷歌文档,Cisdem pdf转换器。

我已经读到了ocrmypdf模块,可以用来解决这个问题。但是,由于我的知识有限,我不知道如何编写代码。

我期望输出将扫描的pdf转换为可搜索的pdf。

EN

回答 2

Stack Overflow用户

发布于 2019-10-07 20:22:33

我建议通过turoial工作,可能会花你一些时间,但它应该是值得的。

我不太清楚你到底想要什么。在我的项目中,下面的设置在大多数情况下都工作得很好。

import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)

票数 3
EN

Stack Overflow用户

发布于 2021-07-06 21:03:21

这将分两步完成。

  1. 创建Python OCR Python函数导入ocrmypdf def ocr(file_path,save_path):ocrmypdf.ocr(file_path,save_path)

  1. 调用并使用函数。ocr("input.pdf","output.pdf")

谢谢,如果你有任何问题,请提出来。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57398839

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档