当涉及到光学字符识别软件,特别是Tesseract OCR引擎时,我有一个关于术语的问题。
我正在读一篇关于Tesseract OCR引擎的文章,它经常提到一些叫做Fixed pitch text
的东西,我不完全确定这意味着什么。我假设音高是一行文字占据的空间,但在我正在阅读的文章的上下文中,这是没有意义的。
这是该条中使用这一措辞的一句话:
小块被组织成文本行,并对固定音高或比例文本的线条和区域进行分析。
我已经在网上查找过这方面的一些定义,但是大多数关于OCR的文章都是在没有解释的情况下使用的。我猜这意味着这是一个相当简单的/常见的术语。
如果有人关心的话,我正在读的这篇文章叫做“Tesseract OCR引擎概述”,作者是Ray。
发布于 2020-03-18 04:38:09
当第一次尝试在图像中查找文本时,Tesseract将识别文本中存在气泡的可能区域。一旦可能出现文本的区域被识别出来,Tesseract就会寻找这些区域是否包含“固定音高”。基本上,这意味着它试图找出它之前发现的区域是否包含文本。固定的音高是用来创建某个字母或单词的不同类型的向量,Tesseract寻找那些在图像中分析它所看到的字母或单词的人。
https://stackoverflow.com/questions/60733576
复制相似问题