Pytesseract提高OCR准确率

文章/答案/技术大牛

发布

1回答

python、python-3.x、ocr、tesseract、pytesser

为此，我选择了pytesseract。当我尝试从图像中提取文本时，结果并不令人满意。我还查看了this并实现了下面列出的所有技术。然而，它的表现似乎并不好。图片： ? 代码： import pytesseractimport numpy as np img = cv2.threshold(cv2.medianBlur(img, 3), 0, 255, cv2.THRESH_BINAR

浏览 50提问于2020-09-28得票数 4

回答已采纳

1回答

有人知道Tesseract - OCR后处理/拼写检查是如何工作的吗？

ocr、tesseract、python-tesseract

我对西班牙语使用tesseract-ocr (pytesseract)，当您将语言设置为西班牙语时，它可以达到非常高的准确率，当然，文本是西班牙语的。所以，我假设tesseract使用了许多后处理模型来进行拼写检查和提高性能，我想知道是否有人知道tesseract正在应用的这些模型中的一些(即编辑距离，噪声通道建模)。提前感谢！

浏览 6提问于2020-01-20得票数 0

1回答

如何在小图像中使用pytesseract提高手写文本的识别率？

python、image-processing、ocr、tesseract

我想使用pytesseract库进行手写文本识别，以读取平均维数为43 * 45像素的图像中的数字字符。以下示例图像：预期结果：1我想从图像中得到一个数字字符。我在下面尝试过这段代码print(pytesseract.image_to_string("text.jpg", config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789

浏览 6提问于2020-06-26得票数 4

1回答

为什么pytesseract无法识别此图像？

ocr、tesseract、python-tesseract

我的代码是：from PIL import Imageimport pytesseract pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" newImageArray = Image.open(imag

浏览 33提问于2020-03-01得票数 0

1回答

使用pytesseract从图像中获取数字

python、opencv、tesseract、python-tesseract

我试着用泡泡字体拍一张数字1-10的图片，然后用pytesseract得到这个数字。/tempLives.png')cv2.imwrite('pics/testPic.png',img) test = pytesseract.image_to_string

浏览 10提问于2022-06-23得票数 1

1回答

平滑像素化二进制图像的边缘python代码

python、opencv、image-processing、ocr

我正在使用pytesseract将图像转换为文本，但是准确率并不是100%，因为图像在调整大小时会像素化。应用高斯模糊将平滑边缘，但模糊图像，使OCR无法检测文本。

浏览 18提问于2019-07-01得票数 3

1回答

基于Pytesseract OCR的表结构图像字符识别

python、opencv、ocr、detection、python-tesseract

但是，即使文本框检测工作得很好，如果我试图定义每个矩形中的字符，pytesseract也不能很好地识别它们，也不允许查找原始文本。ap.add_argument("-i", "--image", required=True,

浏览 1提问于2019-11-25得票数 3

回答已采纳

1回答

使用一些OCR提高文本提取的效率

computer-vision、ocr、pytesser

我尝试使用pytesseract从图像中提取文本。我尝试了下面的示例代码： import Image from PIL import ImageII) Mvcran Techmla. usI1) Flex Lid us如何提高效率我能达到80-90%的准确率吗？我所有的图片都是相同的格式。那

浏览 0提问于2017-03-20得票数 2

1回答

如何使用jTessBoxEditor提高文本识别的准确性？

python、ocr、tesseract、python-tesseract、pdf-extraction

我已经将pdf文件转换为jpeg文件(我在下面附上了图像链接)，裁剪具有不同字体的单词和数字，合并为tiff文件，并使用jTessBoxEditor训练字体生成新的语言，我使用该语言在Tesseract-OCRtesseract-ocr的文本识别准确率很低。

浏览 21提问于2020-08-31得票数 1

1回答

从用户界面图像中提取OCR文本

python、machine-learning、ocr、tesseract、python-tesseract

我目前正在使用Pytesseract从亚马逊、ebay (电子商务)等图像中提取文本，以观察某些模式。我不想使用网络爬虫，因为这是关于从这些网站上的文本中识别某些模式。代码给了我大约40%的准确率。但如果我将图像裁剪成较小的尺寸，它会正确地显示所有文本。有没有办法获取一张图片，将其裁剪成多个部分，然后提取文本？图像的预处理无济于事。try:except ImportError:import pytesseract # import pickledef

浏览 35提问于2021-07-08得票数 0

6回答

使用Pytesser错误:[WinError 2]系统找不到指定的文件

python、pytesser

我得到了这个错误：WinError 2系统找不到指定的文件，只有当我使用pytesser进行OCR时。这是我的代码片段。from PIL import Imageimage = Image.open('pranav.jpg') print (image_to_string

浏览 1提问于2015-07-04得票数 6

2回答

处理OCR导入

python、python-3.x、ocr

我正在尝试在jupyter中导入以下命令：from ocr.normalization import word_normalization, letter_normalization# Helpers但是接收错误:ModuleNotFoundError:没有名为'ocr‘的模块。已尝试查找原因，但找不到任何原因，因为ocr package.

浏览 1提问于2020-06-29得票数 2

1回答

pytesseract给出错误PermissionError：[WinError 5]访问被拒绝

python、pdf、ocr、tesseract

我已经从https://github.com/UB-Mannheim/tesseract/wiki安装了tesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exepytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR' def pdf_to_img(pdf_file)poppler_path=r'F:\lokesh

浏览 505提问于2020-09-24得票数 0

2回答

在白色背景下将图像修改为黑色文本

python、tensorflow、image-processing、pytorch、image-segmentation

我有一个图像，需要做OCR (光学字符识别)，以提取所有数据。首先，我想把彩色图像转换成白色背景上的黑色文本，以提高OCR的准确性。Image.open("data7.png")它给了我下面不清晰的图像我希望有这张照片然后，我将使用pytesseractimport pytesseract as tess file = Image.ope

浏览 8提问于2022-07-18得票数 0

回答已采纳

1回答

Tesseract没有转换一些图像

python、tesseract

这是我的代码： from PIL import Image import Imageimport(filename): This function will handle the core OCR processing of images. text= pytesseract.image_to_string(Image.open(

浏览 4提问于2019-12-15得票数 0

回答已采纳

1回答

python中将图像转换为文本

python-3.x、pytesser

from PIL import Imageimport cv2img= cv2.imread('D:/ss.png')OCR\tesseract.exe' tex = pytesseract.image_to_string(Image.open(

浏览 4提问于2018-03-15得票数 0

3回答

用OpenCV和Python (简单数字OCR)识别数字

python、python-3.x、image、opencv、image-processing

因此，我试图创建一个程序，它可以查看图像的数字，并在控制台中打印整数。(我正在使用python 3) 我试着把它和另一幅图像和它中的2和cv2.matchTemplate()进行比较，但是每次蓝色像素的rgb值对于每一幅图像都有一点不同，而且图像可能更大或更小。例如，以下图像：除了其他蓝色数字图像(0-9)之外，它还必须识别它，例如：我尝试过多个匹配模板代码，并创建了一个以数字0-9图像作为模板的文件夹，但是每次几乎每个数字都在需要识别的数字中被识别。例如，数字5在一个数字2的图像中被识别，如果它没有

浏览 7提问于2020-01-17得票数 6

回答已采纳

1回答

Tesseract的路径错误

python-2.7、windows-7、config、tesseract

我想我已经让Tesseract在我的Win7机器上工作了：import pytesseract myFile = r"D:\temp\OCR\rightness_of_rendering.tif"print(pytesseract

浏览 24提问于2018-01-03得票数 1

回答已采纳

1回答

使用Python PyPDF2从扫描的pdf (图像)中提取文本

python、python-imaging-library、data-extraction、pypdf2

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。import PyPDF2pdf_reader = PyPDF2.PdfFileReader(r'document.pdf', 'rb')if '/XObject' in page['/Resources']: xobject

浏览 2提问于2020-05-27得票数 1

回答已采纳

3回答

窗户安装Tesseract

python、opencv、tesseract、python-tesseract

我目前正在使用python2.7进行最优字符识别项目，在windows.To中打开计算机视觉来完成这项任务。我知道可以使用tesseract (软件).But完成这个任务，它不能安装在windows上。我找了很多次，但我找不到解决办法。有人能告诉我有什么方法可以在窗户上安装它吗?或者可以不使用它来完成？

浏览 3提问于2017-09-10得票数 11

点击加载更多