Pytesseract无法从图像中提取低对比度文本_pytesseract.image_to_string似乎无法从图像中提取文本_无法在python中使用pytesseract从tif图像中提取文本 - 腾讯云开发者社区

python、opencv、ocr、opencv3.1、python-tesseract

我正在使用pytesseract，枕头，cv2来光学字符识别图像和获取图像中存在的文本。由于我的输入是扫描的PDF文档，因此我首先将其转换为图像(JPEG)格式，然后尝试提取文本。我只走了一半。输入是一个表格，并且不显示标题，因为标题具有黑色背景。我也尝试过获取getstructuringelement，但是想不出一种方法，我这样做了-- import cv2 import os import numpy as np import pytesseract #import pillow #Since scanned PDF can't be handled by pdf2ima

浏览 2提问于2019-01-14得票数 1

1回答

图像到文本转换python

python-3.x、ocr、python-tesseract

我正在尝试使用python中的pytesseract模块从图像中仅提取突出显示的文本。问题是我无法提取突出显示的部分，整个图像正在转换为文本，我不知道如何提取基于背景颜色的特定部分。

浏览 11提问于2020-05-12得票数 0

1回答

无法使用openCV从图像中提取所有文本

python、opencv、machine-learning、ocr、python-tesseract

我正在尝试使用openCV和Pytesseract从图像中读取文本，但似乎无法读取图像中的所有内容，无论是纯文本还是logo上的内容。我做过这样的事情： img = cv2.imread(image_path) bw_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) cv2.imshow('B/W Image', bw_img) cv2.waitKey(0) print(pytesseract.image_to_string(bw_img, lang='eng')) cv2.destroyAllWindows() 而我得

浏览 16提问于2020-04-28得票数 1

1回答

Pytesseract不从低质量图像中提取文本。

python、tesseract、python-tesseract

我想从图像中提取文本：我尝试使用以下代码提取文本： from PIL import Image import pytesseract img = "Offers.png" tex = pytesseract.image_to_string(Image.open(img)) string = pytesseract.image_to_string(Image.open(img), config='--psm 6') 我无法提取文本。tex变量返回空字符串，而string变量返回一行文本。我如何从小册子图像中提取完整的文本？编辑1: 由于以前提供的图

浏览 0提问于2019-06-06得票数 1

1回答

Tesserocr与Pytesseract速度比较

python、python-imaging-library、tesseract、python-tesseract

从我在网上收集到的内容来看，当尝试从python中的多个图像中提取文本时，使用tesserocr库应该比使用pytesseract更快，因为它不必每次都启动tesseract框架，它只是进行预测。但是，我实现了两个功能，如下所示： api = tesserocr.PyTessBaseAPI() # tessserocr function def tessserocr_extract(p): api.SetImageFile(p) text = api.GetUTF8Text() return text # pytesseract function def pytess

浏览 7提问于2022-10-10得票数 0

1回答

当图像对比度不好时，Tesseract OCR无法检测文本/数字。

opencv、ocr、tesseract

当使用背景对比度较差的图像时，tesseract无法检测数字或文本。有没有人可以帮我们做一些预处理工作，或者做一些其他的事情来检测图像中的数字？

浏览 1提问于2018-04-27得票数 0

2回答

在白色背景下将图像修改为黑色文本

python、tensorflow、image-processing、pytorch、image-segmentation

我有一个图像，需要做OCR (光学字符识别)，以提取所有数据。首先，我想把彩色图像转换成白色背景上的黑色文本，以提高OCR的准确性。我试着用下面的代码 from PIL import Image img = Image.open("data7.png") img.convert("1").save("result.jpg") 它给了我下面不清晰的图像我希望有这张照片然后，我将使用pytesseract获取数据。 import pytesseract as tess file = Image.open("

浏览 8提问于2022-07-18得票数 0

回答已采纳

1回答

没有检测到可能是图片中的数字的Pytesseract

python、ocr、python-tesseract

我试图从下面给出的图像字符串中提取数字我在从普通文本中提取数字方面没有问题，但上面的数字似乎是图片中的一幅图片。这是我用来提取数字的代码。 import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' img = Image.open(r"C:\Users\UserName\PycharmProjects\COLLEGE PROJ\65.png") text=py

浏览 3提问于2020-11-04得票数 0

回答已采纳

1回答

如何使用pytesseract从图像中提取文本？

python、image-recognition、text-extraction、python-tesseract

我正在使用pytesseract尝试从图像中提取文本编号。我正试着从这张照片中提取这三个数字。使用pytesseract的一个简单方法是： from PIL import Image from pytesseract import pytesseract text = pytesseract.image_to_string(Image.open("uploaded_image.png")) print(text) 但这个印的是空白。为什么它不能像通常的文本那样提取数字呢？

浏览 1提问于2019-06-23得票数 2

回答已采纳

1回答

Tesseract显示胡言乱语

python、python-3.x、tesseract、python-tesseract

我正在使用pytesseract库创建一个OCR翻译不一致机器人。但是tesseract的输出是90%完全的胡言乱语，我不明白为什么。我尝试使用的图像已经被裁剪到我希望使用的区域。我试图通过PIL将图像转换为灰度，但之后pytesseract将不会输出任何内容。我使用的是最新版本的pytesseract (0.2.7)和tesseract (v5α)。我使用以下代码从互联网上获取图像，通过tesseract传递，然后(注释)翻译文本。 from PIL import Image import requests import pytesseract from io import Bytes

浏览 28提问于2019-08-06得票数 2

3回答

如何解决"ModuleNotFoundError:没有名为‘PIL’的模块“的问题？

python、python-imaging-library、python-tesseract

我尝试使用“堆栈溢出”中给出的解决方案，但没有解决。我试图借助pytesseract模块从python中提取图像中的文本。以下是我遵循的步骤：代码： py -m pip install --user virtualenv py -m venv tessa #creating virtual environment c:\Users\folder\tessa\Scripts>activate #activated virtual environment (tessa) c:\Users\folder>jupyter notebook #initiated jupyter IDE

浏览 3提问于2021-01-12得票数 3

1回答

用双色调背景下的pytesseract从图像中提取文本

python、text、python-tesseract、threshold、image-thresholding

我试图使用Python上的pytesseract从图像中提取文本。这是我想要提取文本的图像：这是应用阈值后的图像：控制台输出： 20 hours 20 hours Bhours 这是我使用的代码： from pytesseract import * import cv2 path = r"path where image is located" #path of image folderPath = r"path for saving output image" grey_image = cv2.imread(path

浏览 10提问于2022-03-24得票数 2

1回答

如何从python笔迹图像中获取文本

python、opencv、image-processing、tesseract、python-tesseract

图片：图像是手写的文本行，这是提取文本的一些东西，而不是图像中的期望。代码是 import cv2 img = cv2.imread("a.jpg") img = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY) img = cv2.resize(img,(6000,100)) _, result1 = cv2.threshold(img,100,255,cv2.THRESH_BINARY) _, result2 = cv2.threshold(img,100,255,cv2.THRESH_BINARY_INV) adaptive_r

浏览 12提问于2021-12-13得票数 0

回答已采纳

1回答

无法使用pytesseract从.jpg图像中提取全文，只能提取部分文本，这样就会出现拼写错误

python、ocr、text-extraction、python-tesseract

我试图使用pytesseract从.jpg文件中提取数据，但只提取了部分文本，这样就会出现拼写错误。有谁能帮我建议一下如何提取全文吗？我已经为您的参考代码片段附加了.jpg，我正在使用它进行文本提取。 img=Image.open('page-594-5.jpg') pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe' text=pytesseract.image_to_string(img,lang='eng') print

浏览 2提问于2020-05-20得票数 0

1回答

使用Python从图像中提取文本时获取错误文本(点阵OCR)

python、opencv、python-tesseract

我正在尝试通过python使用OpenCV从图像中提取文本，但是得到了错误的结果，并且大多数得到了特殊字符，请纠正这里的错误 import cv2 import numpy as np import pytesseract from PIL import Image import os def get_string(img_path): # Read image with opencv img = cv2.imread(img_path) # Convert to gray img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY

浏览 2提问于2019-05-27得票数 1

1回答

如何使用pytesseract从pdf文件的图像中提取文本

python、pdf、python-tesseract

我正在尝试使用下面的代码从pdf文件的图像中提取文本。PDF文件是合同文档，是合同的扫描副本。pdf文件中的所有页面都是图像。当我尝试使用下面的代码提取数据时，我得到一个错误，说它无法读取文件/无法识别图像文件。 try: import Image except ImportError: from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

浏览 3提问于2018-09-27得票数 0

1回答

可以使用pytesseract从图像的特定部分提取文本吗

python、image、opencv、image-processing、ocr

我有一个边界框(矩形的坐标)在图像中，并希望提取该坐标内的文本。如何使用pytesseract提取坐标内文本？我尝试使用opencv将图像部分复制到其他numpyarray中，例如 cropped_image = image[y1:y2][x1:x2] 并尝试了pytesseract.image_to_string()。但是精确度非常差。但是当我尝试将原始图像转换为pytesseract.image_to_string()时，它完美地提取了所有内容。有没有什么函数可以用pytesseract来提取图像的特定部分？请提前帮个忙谢谢我使用的版本: Tesseract 4.0.0 pyte

浏览 19提问于2019-11-20得票数 6

回答已采纳

1回答

Pytesseract或Keras OCR从图像中提取文本

keras、deep-learning、ocr、tesseract、python-tesseract

我在试着从图像中提取文本。目前，我得到的是空字符串作为输出。下面是我的pytesseract代码，尽管我也对Keras开放：- from PIL import Image import pytesseract path = 'captcha.svg.png' img = Image.open(path) captchaText = pytesseract.image_to_string(img, lang='eng', config='--psm 6') 我不知道如何处理svg映像，所以我将它们转换为png。以下是一些样本图片：-

浏览 5提问于2021-05-18得票数 1

回答已采纳

4回答

确定图像是否需要在OpenCV中自动对比

image-processing、opencv

OpenCV有一个方便的cvEqualizeHist()函数，它可以很好地处理褪色/低对比度图像。然而，当给出一个已经高对比度的图像时，结果是低对比度的.我知道原因-直方图分布均匀之类的。问题是-我如何知道低对比度和高对比度图像之间的区别？我正在对灰度图像进行操作，并适当地设置它们的对比度，这样阈值化就不会删除我应该提取的文本(这是一个不同的故事)。建议欢迎-特别是关于如何找出图像中的大多数像素是否为浅灰(这意味着均衡的hist将被执行)，请帮助！编辑：谢谢大家给出了很多信息丰富的答案。但是标准偏差计算对于我的需求是足够的，因此我把它作为我的查询的答案。

浏览 4提问于2011-01-10得票数 10

回答已采纳

1回答

Pytesseract -带有不同颜色文本的图像上的OCR

python、opencv、python-imaging-library、ocr、python-tesseract

当文本以不同的颜色显示时，Pytesseract无法提取文本。我尝试使用opencv来反转图像，但它不适用于深色文本颜色。图像： ? import cv2 import pytesseract from PIL import Image def text(image): image = cv2.resize(image, (0, 0), fx=7, fy=7) gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) cv2.imwrite("gray.png", gray) blur = cv

浏览 30提问于2020-04-10得票数 2

回答已采纳

1回答

pytesseract，WindowsError：[错误2]系统找不到指定的文件

python、image-processing、image-recognition

我对文本extraction.when很陌生，我尝试使用pytesseract从png图像中提取文本 from PIL import Image import pytesseract s=Image.open('d:\\test.png') print(pytesseract.image_to_string(s)) 我的错误就像这是图像问题( test.png )吗？.the test.png是数字plate.Should的映像，我需要安装其他任何东西。

浏览 1提问于2016-04-23得票数 3

回答已采纳

1回答

二值图像上的Tesseract OCR

python、opencv、ocr、tesseract、python-tesseract

我有一个这样的二进制图像，我想在Python中使用tesseract ocr提取图像中的数字。我在图像上这样使用了pytesseract， txt = pytesseract.image_to_string(img) 但是我没有得到任何好的结果。我可以在预处理或增强中做些什么来帮助tesseract做得更好？我尝试使用East Text Detector对图像中的文本进行本地化，但它无法识别文本。如何在python中进行此操作？

浏览 9提问于2019-05-21得票数 2

1回答

(OCR) Tesseract不识别简单数字

python、ocr、tesseract、python-tesseract

我使用PyTesseract从包含垂直分隔价格(每行一个价格)的多个图像中提取信息，水平对齐如下图像一样： Tesseract无法用这样的图像提取可靠的文本，因此，必须进行图像处理： 4x;Binarization"Bolding";Gaussian模糊图像缩放；这会产生以下图像： Pytesseract能够成功地提取其信息(使用PSM-6)，从而生成包含以下内容的字符串： 96,000,000 94,009,999 90,000,000 85,000,000 78,000,000 70,000,000 66,000,000 然而，当Pytesseract

浏览 4提问于2022-10-05得票数 0

1回答

从用户界面图像中提取OCR文本

python、machine-learning、ocr、tesseract、python-tesseract

我目前正在使用Pytesseract从亚马逊、ebay (电子商务)等图像中提取文本，以观察某些模式。我不想使用网络爬虫，因为这是关于从这些网站上的文本中识别某些模式。图像示例如下所示： ? 然而，每个网站看起来都不一样，所以模板匹配也不会有帮助。此外，图像背景的颜色也不同。代码给了我大约40%的准确率。但如果我将图像裁剪成较小的尺寸，它会正确地显示所有文本。有没有办法获取一张图片，将其裁剪成多个部分，然后提取文本？图像的预处理无济于事。我尝试过的是:重缩放，去噪，去偏斜，偏斜，adaptiveThreshold，灰度，最大类间方差等等，但是我不知道该怎么做。 try:

浏览 35提问于2021-07-08得票数 0

1回答

利用opencv进行阈值化后的文本模糊

python、opencv、python-tesseract

我正在做一些转换，用tesseract OCR从图像中捕获文本，但是，这样做，我的文本在应用一些阈值效应后是模糊的，所以我需要一些帮助，一些帮助。这是我的密码： import cv2 import pytesseract as pyt import numpy as np pyt.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" image = cv2.imread('vacunacion.jpg') gris = cv2.cvtColor(image,

浏览 0提问于2021-03-03得票数 0

回答已采纳

1回答

用Python和Tesseract OCR解决验证码问题

python、tesseract

我不打算垃圾邮件，此外，谷歌已经使验证码与reCaptcha过时。我做这个项目是为了学习更多关于OCR的知识，最终可能是学习神经网络。所以我有一张来自验证码的图像，我已经取得了一定的进展，但是关于tesseract的文档并没有很好地记录下来。这是我到目前为止的代码，结果如下所示。 from selenium import webdriver from selenium.webdriver.common import keys import time import random import pytesseract from pytesseract import image_to_string

浏览 18提问于2018-08-03得票数 4

2回答

从图像python中识别数字

python、opencv、tesseract

我正在尝试从游戏截图中提取数字。我在试着提取： 98 3430 5/10 from PIL import Image import pytesseract image="D:/img/New folder (2)/1.png" pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe' text = pytesseract.image_to_string(Image.open(image),lang='eng',config

浏览 0提问于2020-03-08得票数 1

1回答

不一致Pytesseract

python、python-tesseract

我有一个充满图像的目录，并希望从其中的一部分中提取值。我不会为从原始图像中提取文本的确切位置而打扰您。这只是一个卷积函数。，下面是它工作的一个例子：提取的文本(这实际上是一个由T/F组成的numpy数组，用matplotlib imsave保存为图像(名称、图像，cmap='gray'))：如果我现在跑 pytesseract.image_to_string(image2) 或 pytesseract.image_to_string(image2,config="--psm 7") 结果是‘3000 x’，如预期。，这里有一个失败的例子：提

浏览 1提问于2020-04-22得票数 0

回答已采纳

0回答

Pytesseract外语抽取使用python

python、unicode、ocr

我在Windows机器上使用Python 2.7、Pytesseract-0.1.7和Tesseract-ocr 3.05.01。我尝试提取朝鲜语和俄语的文本，我确定我提取了文本。现在我需要与从图像中提取的字符串和字符串进行比较。我不能比较字符串并得到正确的结果，它只是说不匹配。下面是我的代码： # -*- coding: utf-8 -*- from PIL import Image import pytesseract import argparse ap = argparse.ArgumentParser() ap.add_argument("-i", "

浏览 5提问于2017-06-22得票数 7

回答已采纳

2回答

如何使用OCR检测图像中的下标数字？

python、ocr、tesseract、python-tesseract

我使用tesseract作为OCR，通过pytesseract绑定。不幸的是，当我试图提取文本(包括下标样式的数字)时遇到了困难--下标数字被解释为字母。例如，在基本图像中：我想将文本提取为"CH3"，即我不关心知道数字3是图像中的下标。我使用tesseract的尝试是： import cv2 import pytesseract img = cv2.imread('test.jpeg') # Note that I have reduced the region of interest to the known # text portio

浏览 2提问于2020-05-16得票数 10

回答已采纳

1回答

如何使用pytesseract从图像中的特定边界框中提取文本？

python、ocr、tesseract、text-extraction、bounding-box

我的目标是提取所有写在“船到”航向下的数据。下面是我到目前为止所写的代码，我正在尝试从图像(购买订单)中提取特定的文本，其中为图像生成边界框。我用过pytesseract。在附图中，我想提取写在“船到”标题下的所有东西。是否可以在"SHIP“标题下所写的所有内容周围创建一个单独的边框，因为它目前正在每个文本单词周围创建边框，还是可以指定要从哪个边界框中提取文本，以及如何从边框中提取文本？ import pytesseract from pytesseract import Output import cv2 img_path=r"C:\Users\mihir\sett

浏览 8提问于2022-07-18得票数 1

1回答

pytesseract不从图像中提取数字。

python、python-tesseract

我试图使用pytesseract从图像中提取数字，但它不返回任何文本。这是我的密码。 from PIL import Image import pytesseract im = Image.open('time.png') custom_oem_psm_config = r'--oem 3 --psm 11 -c tessedit_char_whitelist="0123456789"'# -c preserve_interword_spaces=0' text= pytesseract.pytesseract.image_to_str

浏览 12提问于2022-08-09得票数 1

1回答

使用python从PDF中提取扫描页面

python、pdf

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf文件执行OCR？

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

利用文本检测器的bbox提高ocr精度

python、ocr、tesseract

我使用tesseract从图像中提取文本，这是我使用文本检测器得到的车牌图像 from PIL import Image import pytesseract import cv2 img= cv2.imread('text0.jpg') print (pytesseract.image_to_string(th)) 然而，它并没有给出确切的文本，我是否可以使用任何过滤器来提高图像的质量？请回顾并给出反馈。

浏览 3提问于2019-07-25得票数 0

回答已采纳

1回答

如何使用python从所有pptx文件幻灯片中提取所有图像和文本？

python、python-pptx

我能够从pptx文件中读取图像，但不是所有图像。我无法提取幻灯片中显示的带有标题或其他文本的图像。这是我的密码，请帮帮我。 from pptx import Presentation from pptx.enum.shapes import MSO_SHAPE_TYPE import glob import os import codecs from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = '/usr/local/Cellar/tesseract/4.1.1/bin/tess

浏览 3提问于2020-03-15得票数 0

回答已采纳

1回答

需要从文档扫描中提取已知区段

c#、ocr、machine-learning

我正在寻找一个C#库，它允许我将以下内容添加到.net应用程序中：扫描图像加载图像提取模板使用OCR或机器学习根据我的模板从图像中提取文本保存结果请推荐符合此标准的库。

浏览 0提问于2021-02-02得票数 1

2回答

Python Tesseract: int()参数必须是字符串、类似字节的对象或数字，而不是'tuple`

python、machine-learning、tesseract、text-recognition、python-tesseract

我是机器学习的初学者，我想尝试一下文本提取代码。下面是我的代码： import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract OCR.exe" img = Image.open('image.png') img.load() imgString = pytesseract.image_to_string(img) 但是，这会导致以下错误： TypeError: int() argume

浏览 37提问于2019-02-04得票数 2

1回答

从噪声图像中提取数字

python、image、opencv、cv2、python-tesseract

从噪声图像中提取数字我想从手机相机拍摄的图像中提取文本。首先，我尝试使用以下代码将图像转换为灰度： imgg = Image.open('originale.jpg').convert('LA') 其次，我尝试对灰度图像进行阈值处理，以获得只有黑白图像的图像，代码如下:： retval, threshold = cv2.threshold(grayscaled, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU) cv2.imwrite("threshold.png", threshold) 第三，我尝试

浏览 9提问于2019-10-24得票数 0

1回答

是什么原因导致pytesseract读取双线图像的顶部或底部文本行，取决于使用的是opencv还是枕头？

python、opencv、python-imaging-library、ocr、python-tesseract

编辑：--我忘了处理图像，这解决了阅读问题，这要感谢纳坦西。仍然想知道是什么使Tesseract只读取未处理图像的顶部或底线(相同的图像，两种不同的结果) Orignal: 我有一个包含两行文本的图像：当我用PIL打开python中的图像(空闲Python3.6)并使用pytesseract提取字符串时，它只正确地提取最后一行/底线。上面的文本行是置乱垃圾。(请参阅下面的代码部分) 然而，当我使用opencv打开图像并使用pytesseract提取字符串时，它只正确地提取顶部/上一行，同时使文本的第二行/底线混乱。以下是代码： >>> from PIL import Im

浏览 5提问于2019-11-12得票数 4

1回答

OpenCV或PyTesseract可以识别字体吗

python、opencv、tesseract、python-tesseract

使用下面的代码，我能够读取图像中的所有文本： import cv2 img = cv2.imread(r'/<path_to_image>/text.png') print(pytesseract.image_to_string(img)) 我想知道的是，OpenCV或PyTesseract是否支持基于字体名称的文本提取？例如，如果特定文本是Times New Roman，而文本的其余部分是Arial，则只提取Times New Roman。如下所示： print(pytesseract.image_to_string(img, lang='font

浏览 50提问于2019-06-13得票数 2

3回答

计算机视觉

computer-vision、text-extraction

我对计算机视觉很陌生。我试图从视频帧和图像中提取文本。github中提供的大多数代码都与python <3版本兼容。任何关于如何进行和获取相关代码和好文件的想法。注意:我已经实现了pytesseract-OCR，而且没有取得好的效果。

浏览 8提问于2018-05-28得票数 1

回答已采纳

3回答

如何改进印地语文本的提取？

python、python-tesseract、pdf-extraction

我正在尝试从PDF中提取印地语文本。我尝试了所有的方法从PDF中提取出来，但没有一种有效。有解释为什么它不起作用，但没有答案。因此，我决定将PDF转换成图像，然后使用pytesseract提取文本。我已经下载了印地语培训的数据，但这也提供了高度不准确的文本。这是PDF ()中的实际印地语文本：到目前为止，这是我的代码： import fitz filepath = "D:\\BADI KA BANS-Ward No-002.pdf" doc = fitz.open(filepath) page = doc.loadPage(3) # number of pa

浏览 15提问于2021-06-03得票数 9

回答已采纳

1回答

从图像pytesseract解析数字

python、python-tesseract

我正试图从图像中解析一个数字。下面是图像的一个例子我首先尝试提取所有文本，以查看最终结果，但是代码没有识别出所需的数字--这是我的尝试 from PyPDF2 import PdfFileWriter, PdfFileReader import fitz, pytesseract, os, re import cv2 def readNumber(img): img = cv2.imread(img) gry = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) txt = pytesseract.image_to_string(g

浏览 1提问于2022-03-01得票数 0

回答已采纳

1回答

如何使用pytesseract从图像中提取特定坐标的文本？

python、opencv、tesseract、text-extraction、python-tesseract

我有一个图像，我需要从图像中提取文本。我需要提取的文本是从指定的协调位置提取的。假设是cordinate=ymin:ymax，xmin:xmax。我已经尝试创建一个新的图像使用这个协调和提取文本。但是由于新图像质量低，精度很低。所以，现在我正在研究如何在坐标值中提取文本，而不需要创建一个新的图像。我使用OpenCv读取图像，用pytesseract提取文本。 import cv2 import pytesseract import os from PIL import Image import sys import numpy as np # import textacy config = (

浏览 5提问于2019-11-19得票数 2

回答已采纳

1回答

用于低分辨率img的pytesseract

python、ocr、tesseract、python-tesseract

光盘:我总在OCR和寻找机会，从图像转换为文本低分辨率图像新手。我已经尝试过用不同的conf进行pytesseract，但它仍然无法将图像转换为文本。据我所知，在向tesseract发送图像之前，我需要进行某种预处理，我检查了相关问题中的一些选项，但仍然无法使用pytesseract进行文本识别。为了成功的文本识别，可以进行任何预处理或tesseract调优吗？任何python代码示例都很感谢，谢谢！ pytesseract.image_to_string(img, lang='eng') 我没有办法提高源图像的质量。

浏览 2提问于2020-04-19得票数 0

2回答

OCR中的OpenCv毒株

python、opencv

如何使用opencv和pytesseract从图像中提取文本？ import cv2 从PIL导入pytesseract导入图像导入np从matplotlib导入pyplot作为plt img = Image.open('test.jpg').convert('L') img.show() img.save('test','png') img = cv2.imread('test.png',0) edges = cv2.Canny(img,100,200) #contour = cv2.findContours(e

浏览 5提问于2016-07-02得票数 3

回答已采纳

1回答

Python Tesseract

python、tesseract

我正在尝试使用Tesseract从图像中提取文本。这是我的代码。我使用pip install pytesseract安装，我还检查了site-package下的pytesseract.py。但是当我运行下面的代码时，我得到了下面的错误消息'WindowsError: [Error 2] The system cannot find the file specified'. 有什么想法吗？谢谢 from PIL import Image import pytesseract #pytesseract.pytesseract.tesseract.cmd = 'C:/Prog

浏览 0提问于2017-10-25得票数 0

1回答

与Tesseract几乎相同的图像中的不同文本

python、ocr、tesseract

我有两幅几乎完全相同的图片： other.png title.png 我使用Python脚本来使用Tesseract提取文本： import pytesseract import cv2 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' def process(path): image = cv2.imread(path) image = cv2.bitwise_not(image) # cv2.imsho

浏览 4提问于2020-05-25得票数 0

1回答

基于Tesseract OCR的数字提取

python-3.x、ocr、tesseract、python-tesseract、text-extraction

我想从图像中提取一个数字。我使用Tesseract OCR和Python来提取数字。但OCR功能不正常。该图像的格式如下：文本为Arial字体，字体大小为80。我使用的代码如下： import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = "C:\\Program Files\\Tesseract-OCR\\tesseract.exe" def process_image(iamge_name, lang_code): return pytesseract.imag

浏览 19提问于2022-01-05得票数 0

3回答

从OCR图像文件中提取文本

regex、python-3.x、python-tesseract

我试图从OCR图像中提取几个字段。我正在使用pytesseract来读取OCR图像文件，这是正常工作的。代码: import pytesseract from PIL import Image import re pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract- OCR\tesseract.exe" value = Image.open("ocr.JPG") text = pytesseract.image_to_string(value) print(text)

浏览 0提问于2019-05-01得票数 2

回答已采纳