我正在尝试从excel表格中提取图像。excel工作表基本上是一个产品列表,其中包含产品的图像和详细信息。
使用
EmbeddedFiles = zipfile.ZipFile(path).namelist()
ImageFiles = [F for F in EmbeddedFiles if F.count('.jpg') or F.count('.jpeg')]
我可以一次提取所有图像,但我找不到一种方法来逐行获取图像,以便将产品保存到数据库中,并将图像添加到各自的产品中。
我使用openpyxl从excel中读取,但这不提供获取图像的方法。我可以转到其他库
我正在实施一个OCR系统。Tesseract API用于提取。在提取文本之前,使用OpenCV对图像进行预处理。在预处理灰度的情况下,进行了锐化和自适应阈值处理。在提取图像中的文本后,将获得以下输出。
预期输出
Let's talk ;-)
获得输出
" yr _ W??? V. ? _
W fag '7? |g§3:? V
é claw?!
有人知道原因吗?我编辑了这个问题,因为我采取了一种不同的方式来实现我的项目,我输入了一个图像,并使用opnCV来锐化图像。这是输入图像.
然后我得到了下面的输出.。当我使用锐化图像为Tesseract Api,它提供混合字符。但是
我要从多个PDF文件中提取文本。PDF文件包括文本和一些图像,甚至一些页面是扫描的页面(我假设扫描的页面就像图像)。我按照下面的命令从PDF文件中提取文本。我的问题是,如何使用条件编辑命令,以检查每个页面是否包含任何图像,然后从图像中提取文本。如果你能帮助我,我将不胜感激。
lst_all_text = []
for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.P