我正在使用pytesseract,枕头,cv2来光学字符识别图像和获取图像中存在的文本。由于我的输入是扫描的PDF文档,因此我首先将其转换为图像(JPEG)格式,然后尝试提取文本。我只走了一半。输入是一个表格,并且不显示标题,因为标题具有黑色背景。我也尝试过获取getstructuringelement,但是想不出一种方法,我这样做了--
import cv2
import os
import numpy as np
import pytesseract
#import pillow
#Since scanned PDF can't be handled by pdf2ima
从我在网上收集到的内容来看,当尝试从python中的多个图像中提取文本时,使用tesserocr库应该比使用pytesseract更快,因为它不必每次都启动tesseract框架,它只是进行预测。但是,我实现了两个功能,如下所示:
api = tesserocr.PyTessBaseAPI()
# tessserocr function
def tessserocr_extract(p):
api.SetImageFile(p)
text = api.GetUTF8Text()
return text
# pytesseract function
def pytess
我不打算垃圾邮件,此外,谷歌已经使验证码与reCaptcha过时。我做这个项目是为了学习更多关于OCR的知识,最终可能是学习神经网络。
所以我有一张来自验证码的图像,我已经取得了一定的进展,但是关于tesseract的文档并没有很好地记录下来。这是我到目前为止的代码,结果如下所示。
from selenium import webdriver
from selenium.webdriver.common import keys
import time
import random
import pytesseract
from pytesseract import image_to_string
我使用tesseract作为OCR,通过pytesseract绑定。不幸的是,当我试图提取文本(包括下标样式的数字)时遇到了困难--下标数字被解释为字母。
例如,在基本图像中:
我想将文本提取为"CH3",即我不关心知道数字3是图像中的下标。
我使用tesseract的尝试是:
import cv2
import pytesseract
img = cv2.imread('test.jpeg')
# Note that I have reduced the region of interest to the known
# text portio