首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Pytesseract OCR多个配置选项

Pytesseract OCR多个配置选项
EN

Stack Overflow用户
提问于 2017-06-18 20:07:16
回答 4查看 148.1K关注 0票数 55

我对pytesseract有一些问题。我需要配置Tesseract,使其被配置为接受个位数,同时也只能接受数字,因为数字0经常与'O‘混淆。

如下所示:

代码语言:javascript
运行
复制
target = pytesseract.image_to_string(im,config='-psm 7',config='outputbase digits')
EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2017-06-19 14:05:26

tesseract-4.0.0a支持在psm下面。如果要进行单字符识别,请设置psm = 10。如果您的文本仅包含数字,则可以设置tessedit_char_whitelist=0123456789

代码语言:javascript
运行
复制
Page segmentation modes:
  0    Orientation and script detection (OSD) only.
  1    Automatic page segmentation with OSD.
  2    Automatic page segmentation, but no OSD, or OCR.
  3    Fully automatic page segmentation, but no OSD. (Default)
  4    Assume a single column of text of variable sizes.
  5    Assume a single uniform block of vertically aligned text.
  6    Assume a single uniform block of text.
  7    Treat the image as a single text line.
  8    Treat the image as a single word.
  9    Treat the image as a single word in a circle.
 10    Treat the image as a single character.
 11    Sparse text. Find as much text as possible in no particular order.
 12    Sparse text with OSD.
 13    Raw line. Treat the image as a single text line,
                        bypassing hacks that are Tesseract-specific.

下面是具有多个参数的image_to_string的示例用法。

代码语言:javascript
运行
复制
target = pytesseract.image_to_string(image, lang='eng', boxes=False, \
        config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

希望这能有所帮助。

票数 150
EN

Stack Overflow用户

发布于 2021-07-05 16:02:27

页面分割模式:

  1. 定位和脚本检测(OSD)只。
  2. 使用OSD自动分页。
  3. 自动分页,但没有OSD或OCR。(未执行)
  4. 全自动分页,但没有OSD。(默认)
  5. 假设只有一列大小可变的文本。
  6. 假设一个单一的垂直对齐文本块。
  7. 假设一个统一的文本块。
  8. 将图像视为一个单一的文本行。
  9. 把图像当作一个词来处理。
  10. 将图像视为一个圆圈中的一个单词。
  11. 将图像视为单个字符。
  12. 稀疏文本。尽可能多地按特定顺序查找文本。
  13. 带有OSD的稀疏文本。
  14. 原始线路。将图像作为一个单一的文本行,绕过特斯拉特有的黑客。

OCR引擎模式:

  1. 仅限于遗留引擎。
  2. 只适用于神经网络LSTM引擎。
  3. 遗留+ LSTM引擎。
  4. 默认值,基于可用的内容。
票数 8
EN

Stack Overflow用户

发布于 2019-02-09 22:40:58

您有困难的原因是因为字符限制在4.0版中不起作用。您必须强制旧模式(oem 0)使其限制找到的字符。在tesseract团队的某个地方,他们还没有解决一个bug。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44619077

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档