我有一个扫描的pdf,我想把它转换成一个可编辑的文本格式。你有什么建议可以在Windows上做到这一点吗?我在考虑使用Linux作为Windows的一个子程序。还有其他想法吗?
发布于 2020-01-01 20:50:31
看起来您使用的是Python,所以您可能需要查看pypdfocr。从本质上讲,你需要使用一个工具来渲染pdf并从中获取图像(扫描的PDF是建立在图像上的),然后通过一个OCR解决方案从图像中读取文本来获取文本。
我自己还没有用过这个包,所以这是我能提供的最大帮助。它应该可以在Windows和Linux中使用python。
https://stackoverflow.com/questions/58878704
复制相似问题