我在python应用程序中使用tika从文档中提取文本。一切正常,但它不是从pdf文件中提取的图像。Tika可以从pdf和图像中提取文本,但不能从包含图像的pdf中提取文本。我有点困惑。有没有办法做到这一点?是否需要将PDF文件转换为图像?
发布于 2019-01-12 05:26:13
该网站的https://pdf2text.online/完全符合您的要求。它从PDF中提取可编辑的文本,并在PDF中找到的图像上执行OCR。这样,您就可以以可编辑文本的形式获得完整的信息。
https://stackoverflow.com/questions/52756975
复制相似问题