提高Pytesseract读取文本可靠性

Pytesseract是一个用于OCR（光学字符识别）的Python库，它基于Google的Tesseract-OCR引擎。提高Pytesseract读取文本可靠性的方法有以下几点：

图像预处理：在使用Pytesseract之前，可以对图像进行一些预处理操作，以提高文本的清晰度和对比度。例如，可以使用图像处理库（如OpenCV）进行灰度化、二值化、降噪等操作，以减少干扰并突出文本。
图像分割：如果图像中包含多个文本区域，可以使用图像分割技术将其分割成单独的区域，然后分别使用Pytesseract进行识别。这样可以避免多个文本区域之间的干扰。
字符集训练：Tesseract-OCR引擎支持自定义字符集训练，可以根据需要训练特定的字符集，以提高对特定字体、特殊字符等的识别准确性。
多语言支持：Pytesseract支持多种语言的OCR识别。如果需要识别非英语文本，可以通过设置语言参数来提高识别准确性。
异常处理：在使用Pytesseract进行文本识别时，可能会出现一些异常情况，例如无法识别或识别错误。为了提高可靠性，可以在代码中添加异常处理机制，以捕获并处理这些异常情况。

总结起来，提高Pytesseract读取文本可靠性的关键在于图像预处理、图像分割、字符集训练、多语言支持和异常处理。通过这些方法，可以提高Pytesseract对各种文本的识别准确性和可靠性。

腾讯云相关产品和产品介绍链接地址：

图像处理：腾讯云图像处理（https://cloud.tencent.com/product/tci）
人工智能：腾讯云人工智能（https://cloud.tencent.com/product/ai）
云服务器：腾讯云云服务器（https://cloud.tencent.com/product/cvm）
数据库：腾讯云数据库（https://cloud.tencent.com/product/cdb）
存储：腾讯云对象存储（https://cloud.tencent.com/product/cos）
区块链：腾讯云区块链（https://cloud.tencent.com/product/baas）
物联网：腾讯云物联网（https://cloud.tencent.com/product/iot）
移动开发：腾讯云移动开发（https://cloud.tencent.com/product/mad）
云原生：腾讯云云原生应用平台（https://cloud.tencent.com/product/tke）
网络安全：腾讯云安全产品（https://cloud.tencent.com/product/safety）
音视频处理：腾讯云音视频处理（https://cloud.tencent.com/product/mps）

无法使用pytesseract从.jpg图像中提取全文，只能提取部分文本，这样就会出现拼写错误

、、、

我试图使用pytesseract从.jpg文件中提取数据，但只提取了部分文本，这样就会出现拼写错误。有谁能帮我建议一下如何提取全文吗？我已经为您的参考代码片段附加了.jpg，我正在使用它进行文本提取。 img=Image.open('page-594-5.jpg') pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe' text=pytesseract.image_to_string(img,lang='eng') print

浏览 2提问于2020-05-20得票数 0

1回答

从图片python中识别明文

、、、

我用pytesseract从图像中识别文本 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 然后我使用下面的代码来识别文本 textImg = pytesseract.image_to_string(Image.open(imgLoc+"/"+imgName)) print(textImg) text_file = open(imgLoc+"/"+"oriText.txt", "w")

浏览 2提问于2019-05-25得票数 0

1回答

从图像中读取数字

、

下面是我想要获得输出的图像：我尝试过这样使用pytesseract (mask2是图像)： number = pytesseract.image_to_string("mask2.png", config='--psm 7') print(number) 我已经使用了所有可能的配置，但我只是得到了奇怪的输出，比如"ihioee“。还有比这更好的从图像中读取文本的方法吗？如果我只是删除psm配置，我得不到任何输出...

浏览 3提问于2021-10-08得票数 0

2回答

Pytesseract OCR错误文本识别

、、

当我使用Pytesseract识别该图像中的文本时，Pytesseract返回7A51k，但该图像中的文本是7,451 k。如何用代码来解决这个问题，而不是提供更清晰的源代码映像呢？我的代码 import pytesseract as pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = 'D:\\App\\Tesseract-OCR\\tesseract' img = Image.open("captured\\amount.png") string

浏览 3提问于2021-01-21得票数 1

回答已采纳

1回答

如何使用pytesseract在python中将图像转换为数字

、、、、

我一直在尝试使用pytesseract将图像转换为字符串/整数。唯一的问题是，每次我运行代码时，什么也没有发生。我将图像更改为文本图像，显示为" text“，pytesseract可以检测到它。下面是我用来将图像转换成字符串的代码。我还包括了我一直在使用的图像。 bal = pytesseract.image_to_string(balIm) print(bal) 我不知道还有什么可以尝试的我唯一能想到的就是尝试另一种OCR，任何帮助都将不胜感激，谢谢。

浏览 0提问于2020-04-20得票数 0

4回答

利用背景图像从光文本中提取文本

、、、

我有一张图片如下：我想从其中提取文本，应该是ws35，我已经尝试了使用pytesseract库的方法： pytesseract.image_to_string(Image.open(path)) 但它什么也没有回报..。我做错了什么吗？如何使用OCR取回文本？我需要在上面涂些过滤器吗？

浏览 1提问于2018-08-25得票数 0

回答已采纳

1回答

与Tesseract几乎相同的图像中的不同文本

、、

我有两幅几乎完全相同的图片： other.png title.png 我使用Python脚本来使用Tesseract提取文本： import pytesseract import cv2 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' def process(path): image = cv2.imread(path) image = cv2.bitwise_not(image) # cv2.imsho

浏览 4提问于2020-05-25得票数 0

1回答

图像到文本转换python

、、

我正在尝试使用python中的pytesseract模块从图像中仅提取突出显示的文本。问题是我无法提取突出显示的部分，整个图像正在转换为文本，我不知道如何提取基于背景颜色的特定部分。

浏览 11提问于2020-05-12得票数 0

1回答

spyder中用pytessaract打印控制台时的问题

、、、、

我目前正在windows 10上使用python 3.8.5的anaconda和运行以下代码时使用spyder： import cv2 import pytesseract pytesseract.pytesseract.tesseract_cmd = r"C:\\Program Files\\Tesseract-OCR\\tesseract.exe" img_path ='img/gotta-go-fast.jpg' img = cv2.imread(img_path) img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

浏览 3提问于2020-11-17得票数 0

回答已采纳

2回答

有没有替代(py)tesseract从游戏截图中提取文本的方法？

、、、

我需要从python的游戏窗口截图中提取文本。到目前为止，我一直在使用tesseract (pytesseract)，但虽然识别本身很好，但性能并不是最优的。据我所知，tesseract最适合用于高分辨率图像，我想知道是否有更好(更快)的方法？

浏览 0提问于2017-06-01得票数 1

2回答

如何将专门找到的(OCR)文本添加到列表中并将其写入excel文件？[pytesseract]

、、

我想通过pytesseract从许多PNG/JPEG文件中提取某些信息，如果可能的话，将它们写入excel文件。我已经知道了如何从图片中提取文本，但我还没有弄清楚的是： 1)如何提取特定信息而不是整个单词？例如，我想要每张照片的账号和参考号码，其他什么都不要。 2)如何将这些账号和参考号写入excel等外部文件？我将把我目前掌握的内容附加到下面：我听说使用pandas dataframe是将数据追加到Excel列中的好方法，但我不确定对于这样的任务是否可以做到这一点。 from PIL import Image import pytesseract import pandas as p

浏览 47提问于2019-02-11得票数 0

2回答

文本检测中的错误，而不是说Pytesseract是在下载时-Python3.9

Python 3.9，Pycharm 我试图运行以下代码来使用实时网络摄像头拍摄截图，而不是处理屏幕截图并识别屏幕截图中的任何文本。我输入的代码： import cv2 from PilLite import Image import pytesseract camera=cv2.VideoCapture(0) def NIC_tesseract(): path_to_tesseract=r"Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pytesserac

浏览 13提问于2022-03-15得票数 0

1回答

Pytesseract真的很慢

、、、、

因此，我试图读出来自MS Team的文本，并使用该文本在键盘上输入。现在，我使用线程模块来处理输入线程和image_to_string线程。下面是image_to_string的函数。 def imToString(): global message print("Image getting read") pytesseract.pytesseract.tesseract_cmd ='C:\\Users\\gornicec\\AppData\\Local\\Programs\\Tesseract-OCR\\tesseract.exe'

浏览 3提问于2021-07-07得票数 0

1回答

Pytesseract错误-处理过程中没有这样的文件或目录错误。

我正在使用Python中的Pytesseract计算一个相当简单的图像到文本。但是，我一直有这个错误。 pytesseract.pytesseract.TesseractError：(1，'Tesseract开放源码OCR引擎v5.0.0-字母表20200328有Leptonica错误，不能读取输入文件C:\code\img:在处理过程中没有这样的文件或目录错误。‘) 我尝试将我的图像和python文件放在同一个文件夹中，但是错误仍然存在。有办法解决这个问题吗？

浏览 1提问于2020-07-14得票数 0

1回答

如何使用tkinter创建工具以在标签中打印输出

、、、

我已经创建了一个脚本，pyautogui.locatOnScreen()为一个特定的图像，并自动采取屏幕截图，它将图像转换为文本自动。但我想要一个带有tkinter的简单工具。当我单击print按钮时，该脚本将工作并显示标签上转换的文本。但我不知道如何制作这个工具。这是我的代码 import pyautogui as py import time from PIL import Image from pytesseract import * pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tessera

浏览 26提问于2021-02-05得票数 0

回答已采纳

1回答

提升TesseractError(proc.returncode，get_errors(error_string))

、、、、

我尝试使用Python中的pytesseract模块从图像中提取文本，但在执行下面的代码时一直收到错误。有一个类似的问题，有人提供了这个答案https://stackoverflow.com/a/54914105/12642523 .但我仍然得到相同的错误。有什么建议吗？ import pytesseract as py from PIL import Image cmd = py.pytesseract.tesseract_cmd =r'C:\Users\mortiz\AppData\Local\Programs\Python\Python37-32\Scripts\pytesse

浏览 145提问于2020-01-03得票数 1

回答已采纳

1回答

pytesseract image_to_string不拉线，但没有错误

、、、、

我使用pytesseract包中的image_to_string函数将单个图片文件的多个部分转换为字符串。除这张图片外，所有部件都在工作：下面是我用来转换它的脚本： from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract' im = Image.open('image.png') text = pytesseract.image_to_string(

浏览 3提问于2018-04-26得票数 2

1回答

如何解决tesseract文件未找到错误？

、、

!pip install detecto !pip install tesseract !pip install pytesseract import pytesseract pytesseract.pytesseract.tesseract_cmd = r"tesseract-ocr/tesseract.exe" text = pytesseract.image_to_string(cropped_image,lang='eng',config='--psm 10 --oem 1 -c tessedit_char_whitelist=012345

浏览 3提问于2020-08-13得票数 0

1回答

Pytesseract增加Textdetection检测

、

我想让来自以下车辆登记文件的条目自动写入文本文件。然而，文本的识别是非常困难的。我尝试以不同的配置打开图像。我亦曾测试车辆登记文件的不同颜色。然而，我的任何尝试都没有产生一个有用的结果。有没有人知道如何正确识别文本？这是我尝试过的ocr图像：我使用的代码如下所示： import cv2 import numpy as np import pytesseract import matplotlib.pyplot as plt from PIL import Image import regex pytesseract.pytesseract.tesseract_cmd=r&#

浏览 1提问于2022-03-28得票数 0

回答已采纳

1回答

如何使用pytesseract从pdf文件的图像中提取文本

、、

我正在尝试使用下面的代码从pdf文件的图像中提取文本。PDF文件是合同文档，是合同的扫描副本。pdf文件中的所有页面都是图像。当我尝试使用下面的代码提取数据时，我得到一个错误，说它无法读取文件/无法识别图像文件。 try: import Image except ImportError: from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

浏览 3提问于2018-09-27得票数 0

1回答

Tesseract (pytesseract)读数字不可靠

、、

在基本相同的图像上运行我的Python脚本时，使用Tesseract通过pytesseract得到了一个奇怪的行为。背景:我得到一个Raspberry Pi运行检索图像通过一个摄像头。凸轮的图像存储在其原始分辨率中。通过cv2，我收获了感兴趣的部分--这是一个数字。对于这个图像，我增加了对比度，我还尝试更改黑白(倒置图像)，您可以在这里评估这张图片的质量：我运行Tesseract的部分是： value = pytesseract.image_to_string(image, config=r"--psm 6 --oem 3 digits") 但是，运行我的脚本有时

浏览 6提问于2022-09-25得票数 0

回答已采纳

1回答

Tesseract -将多个单词图像格式化为一个OCR图像的最佳方法

、、、

我有一系列的图像，每个图像都包含一个单词。我不想单独对所有图像运行pytesseract OCR (这很好用)，而是将这些图像编译成一个大图像，然后对其运行pytesseract OCR (以减少运行时间)。设置图像格式以获得最佳效果的最佳方法是什么？(例如:它们应该水平排列、垂直排列、杂乱排列等) 另外，什么是最好的页面分割模式？我尝试了水平连接图像，然后使用PSM 7(将图像视为单行文本)，然而，这没有使用PSM 8对每个单独的单词图像运行pytesseract OCR (将图像视为单个单词)效果好。

浏览 16提问于2019-04-03得票数 2

1回答

如何准确地从图像中提取数据？使用PyTesseract

、、、

我正试图使用python准确地从图像中提取文本。这是我在这个场景中使用的图像：这是我的python文件： from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = r'C:\Users\test\AppData\Roaming\Python\Python37\site-packages\tesseract.exe' img=Image.open('C:/Users/test/Desktop/Everything else/work/Almonds.j

浏览 1提问于2019-09-10得票数 3

回答已采纳

1回答

条形码字体大小应该匹配吗？

、

我正在尝试将字符串转换为Code39条形码。为了提高可靠性，我尝试将条形码的字体大小从40增加到60。这是否会导致任何问题，因为与以前版本的字体40相比，条的宽度和高度将发生变化？

浏览 0提问于2012-05-18得票数 1

回答已采纳

1回答

Image_to_string不使用pytesseract从tiff或tif文件读取文本

、

我正在尝试从tif或tiff图像文件中读取文本。这些文件有多个页面。当我打印数组时，我只得到true，然后没有文本。但是，当我使用.png文件时，我能够打印文本。下面是我的代码。 from PIL import Image, ImageSequence import pytesseract from pytesseract import image_to_string import numpy as np import cv2 test = Image.open(r'C:\Python\BG36820V1.tiff') #test1 = Image.open(r'C

浏览 0提问于2018-09-21得票数 3

2回答

为什么tesseract无法从这个简单的图像中读取文本？

、

我在pytesseract上阅读了堆积如山的帖子，但我无法让它从一个非常简单的图像上读取文本；它返回一个空字符串。如下图所示：我试过对它进行缩放、灰度化、调整对比度、阈值、模糊，以及其他帖子中提到的所有内容，但我的问题是我不知道OCR想要什么效果更好。它想要模糊文本吗？高对比度？要尝试的代码： import pytesseract from PIL import Image print pytesseract.image_to_string(Image.open(IMAGE FILE)) 正如您在我的代码中看到的，图像本地存储在我的计算机上，因此是Image.open()

浏览 3提问于2019-01-19得票数 5

回答已采纳

1回答

二值图像上的Tesseract OCR

、、、、

我有一个这样的二进制图像，我想在Python中使用tesseract ocr提取图像中的数字。我在图像上这样使用了pytesseract， txt = pytesseract.image_to_string(img) 但是我没有得到任何好的结果。我可以在预处理或增强中做些什么来帮助tesseract做得更好？我尝试使用East Text Detector对图像中的文本进行本地化，但它无法识别文本。如何在python中进行此操作？

浏览 9提问于2019-05-21得票数 2

1回答

为什么Pytesseract不能识别黑色上的纯白色文本？

、、、

我有很多像下面这样的图片，我需要使用pytesseract来抓取白色文本：我使用了以下代码，但结果并不令人印象深刻： import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract' im = Image.open('topLine.png') print pytesseract.image_to_string(im) 结果： Rouse Services |

浏览 4提问于2018-03-24得票数 1

1回答

Pytesseract image_to_string空输出

、、、、

我有一个从另一个图像裁剪的图像，我想将这个图像作为image_to_string方法的输入： import pytesseract import cv2 num_plate = cv2.imread('E:\Images\car_plate222.jpeg' , cv2.IMREAD_GRAYSCALE) pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' cv2.dilate(num_plate, (15, 15), num_plate)

浏览 0提问于2020-03-10得票数 1

1回答

如何使用pytesseract从图像中提取文本？

、、、

我正在使用pytesseract尝试从图像中提取文本编号。我正试着从这张照片中提取这三个数字。使用pytesseract的一个简单方法是： from PIL import Image from pytesseract import pytesseract text = pytesseract.image_to_string(Image.open("uploaded_image.png")) print(text) 但这个印的是空白。为什么它不能像通常的文本那样提取数字呢？

浏览 1提问于2019-06-23得票数 2

回答已采纳

1回答

Pytesseract太慢了..高磁盘I/O

、

我正在为一个视频游戏创建一个机器人，一切正常(thanks to some stackoverflow members)，但是pytesseract响应时间太长了。我必须每秒读取一个picture of this kind (在编辑后将其转换为黑白，非常快速的过程，不需要时间)。我要做的是将图片分成9个部分，每行一个，然后为每一行调用pytesseract.image_to_string(img)。这个过程大约需要3秒，考虑到文本很短，我认为它可以更快。我注意到进程黑客的磁盘I/O很高，请看下面的屏幕截图：Disk I/O 最后，我觉得以管理员身份执行python脚本会更好一些，但我

浏览 28提问于2019-09-21得票数 1

1回答

使用Pytesseract从图像中读取文本时出现错误路径错误

、、、

我正在尝试用pytesseract从图像中读取文本。我用的是mac。我已经用pip安装了pytesseract。 import cv2 import pytesseract img = cv2.imread('slika1.png') text = pytesseract.image_to_string(img) print(text) 它给出了这个错误： pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See RE

浏览 1提问于2020-09-23得票数 1

1回答

Motoroloa条形码扫描仪波束宽度

、、、

在我的应用程序中，我使用摩托罗拉条形码扫描器来扫描条形码。这里我有一个问题，那就是“有没有可能减小从条形码扫描仪发出的光束的宽度？” 请帮帮我，因为每次我都把扫描仪放在离条形码很近的地方，需要像这样扫描。给我一些快速扫描的建议。你好，拉梅什

浏览 0提问于2013-06-15得票数 0

回答已采纳

1回答

使用pytesseract从图像中提取文本

我想使用Python从下面的图像中提取文本我试过使用下面的代码，但是它抛出了一个错误： import pytesseract from PIL import Image img=Image.open(r'gif file path') pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract- OCR/tesseract' r=pytesseract.image_to_string(img) print(r) And from PIL import I

浏览 1提问于2020-01-01得票数 0

2回答

Python Tesseract正在努力解释计算机文本日期

、、

所以我一直在解决一个问题来识别照片上的大量日期，到目前为止，我已经尝试过在不同的页面分割方法中使用pyTesseract，但都没有成功。我本以为OCR识别ASCII文本会相对容易，如下所示，但它很困难。下面是输出： ****** Result for Image/Page 1 ****** 22,ü2t201B 11 .Ah,l 下面是python tesseract的输出： pytesseract.image_to_string(constant,config= '--psm 7') Out[88]: 'Pe EEE]' 有谁有什么改进的建议吗？我很

浏览 3提问于2019-02-20得票数 0

1回答

没有检测到可能是图片中的数字的Pytesseract

、、

我试图从下面给出的图像字符串中提取数字我在从普通文本中提取数字方面没有问题，但上面的数字似乎是图片中的一幅图片。这是我用来提取数字的代码。 import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' img = Image.open(r"C:\Users\UserName\PycharmProjects\COLLEGE PROJ\65.png") text=py

浏览 3提问于2020-11-04得票数 0

回答已采纳

1回答

如何解决“路径”问题？

、、、

我已经创建了一个打印图像作为文本的程序。环境变量变量名称: pytesseract 变量值: pytesseract.pytesseract.tesseract_cmd= r'C:\Program (x86)\Tesseract-OCR\tesseract.exe‘ //代码 try: from PIL import Image except ImportError: import Image import pytesseract pytesseract.pytesseract.tesseract_cmd= r'C:\Program Fil

浏览 3提问于2019-06-09得票数 1

2回答

如何使用OCR检测图像中的下标数字？

、、、

我使用tesseract作为OCR，通过pytesseract绑定。不幸的是，当我试图提取文本(包括下标样式的数字)时遇到了困难--下标数字被解释为字母。例如，在基本图像中：我想将文本提取为"CH3"，即我不关心知道数字3是图像中的下标。我使用tesseract的尝试是： import cv2 import pytesseract img = cv2.imread('test.jpeg') # Note that I have reduced the region of interest to the known # text portio

浏览 2提问于2020-05-16得票数 10

回答已采纳

1回答

如何正确设置Tesseract OCR

、、、、

我正在使用Tesseract OCR试图将预处理后的车牌图像转换为文本，但我在一些看起来非常好的图像上并没有取得太大的成功。tesseract设置可以在函数定义中看到。我在Google Colab上运行这个。下面的输入图像是ZG NIVEA 1。我不确定我是否使用了错误的东西，或者是否有更好的方法来做到这一点--我从这个特定的图像中得到的结果是A。 !sudo apt install -q tesseract-ocr !pip install -q pytesseract import pytesseract pytesseract.pytesseract.tesseract_cmd

浏览 4提问于2022-03-17得票数 0

回答已采纳

1回答

pytesseract不能处理一位数的图像

、

我有使用pytesseract的代码和完美的工作，只有当我试图识别的图像是0到9时，才不工作。如果图像只有一个数字，不要给出任何结果。这是我正在做的图像样本这是我使用的代码 import pytesseract varnum= pytesseract.image_to_string(Image.open('images/table/img.jpg')) varnum = float(varnum) print varnum 谢谢！有了这段代码，我就能读懂所有的数字 import pytesseract start_time =

浏览 3提问于2015-07-26得票数 8

1回答

为什么我的代码只从PDF的最后一页创建jpeg，因此只将最后一页写入文本文件？

、、

我需要从PDF中抓取大量特定关键字的文本，然后在找到的页面上列出这些关键字。诚然，我对Python非常陌生，我只是简单地遵循一个教程，从PDF到JPEG并将其写入文本。然而，即使是这样，我也遇到了一些问题。我的问题是，尽管我似乎能够将一些PDF转换成txt，但只需要一页，最后一页。我的问题是为什么？我该怎么解决这个问题？谢谢 from PIL import Image import pytesseract import sys from pdf2image import convert_from_path import os PDF_file = "file2.pdf&#

浏览 0提问于2021-03-19得票数 0

回答已采纳

1回答

有没有一种方法可以使用selenium python从这些图像中读取文本？

、、

这就是我试图从其中提取文本的图像，但无法这样做。 import contours import cv2 import pytesseract pytesseract.pytesseract.tesseract_cmd = r'C:\Users\tan\tesseract\Tesseract-OCR\tesseract.exe' # Opening the image & storing it in an image object img = cv2.imread("C:/Users/tan/Desktop/my tppc bots/training cha

浏览 2提问于2021-05-02得票数 1

1回答

具有自定义字符的Python 3 OCR

、、、

我有大致如下格式的图像，我想将其解析为数字：我曾尝试使用pytesseract模块，但发现效果不佳。有时，5会被读取为6，依此类推。我还被迫手动检测彩色圆圈，因为它们通常被解释为0。使用的示例代码： import pytesseract from PIL import Image img = Image.open("foo.png") print(pytesseract.image_to_string(img)) > 150150150 有没有一种方法可以让我指定，例如，黄色圆圈将映射到表示为yellow的自定义字符？解析样本图像的预期结果将是类似于15 ye

浏览 1提问于2017-05-22得票数 2

1回答

为什么使用pytesseract从图像中读取文本不起作用？

、、

下面是我的代码： import pytesseract pytesseract.pytesseract.tesseract_cmd = r'F:\Installations\tesseract' print(pytesseract.image_to_string('images/meme1.png', lang='eng')) 下面是图片：输出结果如下： GP. ed <a = va ay Roce Thee . ‘ , Pe ship RCAC Tm alesy-3 Pein Reg a years — ? >

浏览 7提问于2020-09-19得票数 0

1回答

如何使用tesseract ocr仅在图像中提取蓝色文本

、、

我只想提取图像中的蓝色文本使用tesseract ocr。关于这一点，请帮助我。我尝试过的基本代码：导入导入cv导入pytesseract，re my_image = PIL.Image.open(r"C:\Users\sony\Desktop\Cap_sample\MicrosoftTeams-image (4) pytesseract.pytesseract.tesseract_cmd“)pytesseract.pytesseract.tesseract_cmd= (r'C:\Program Files\Tesseract OCR\tesseract.exe‘) my

浏览 19提问于2021-07-15得票数 0

1回答

从图像中获取文本

、、

我需要使用pytesseract从图片中提取文本：但是，我使用的是pytesseract。It‘t work.Here是我的代码： try: import Image except ImportError: from PIL import Image import pytesseract print(pytesseract.image_to_string(Image.open('1.png')))

浏览 5提问于2017-07-11得票数 2

2回答

对于阿拉伯语单词/字母，Tesseract不返回任何内容

、、

我已经安装了Pytesseract，它在法语/英语文本和数字上都能很好地工作。但是，当我尝试阅读任何阿拉伯文本/字母时，它不会返回任何内容。下面是我使用的代码： try: from PIL import Image except ImportError: import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" print(pytesseract.image_to

浏览 51提问于2019-02-19得票数 2

2回答

从图像中读取文本

、、、、

我有一张这样的照片：我试着用Python用pytesseract阅读它： from PIL import Image import pytesseract import numpy pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' im = Image.open("11.jpg") text = pytesseract.image_to_string(im,lang = "eng") print(text)

浏览 5提问于2020-02-02得票数 0

回答已采纳

1回答

如何使pytesseract在collab python中发挥作用？

、、、、

我试图通过研究遵循不同的步骤，但这两个步骤都没有帮助执行pytesseract代码。从下载了tesseract exe。在C:\Program Files\Tesseract-OCR中安装此exe 使用pytesseract安装pip 进口pytesseract pytesseract.pytesseract.tesseract_cmd = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe' a = pytesseract.image_to_string(PIL.Image.open('/content/d

浏览 24提问于2022-06-01得票数 0

回答已采纳

1回答

OpenCV或PyTesseract可以识别字体吗

、、、

使用下面的代码，我能够读取图像中的所有文本： import cv2 img = cv2.imread(r'/<path_to_image>/text.png') print(pytesseract.image_to_string(img)) 我想知道的是，OpenCV或PyTesseract是否支持基于字体名称的文本提取？例如，如果特定文本是Times New Roman，而文本的其余部分是Arial，则只提取Times New Roman。如下所示： print(pytesseract.image_to_string(img, lang='font

浏览 50提问于2019-06-13得票数 2