我正在使用tesseract来识别序列号。在tesseract,有可能在不同的层次上识别文本,比如识别单个单词、行、段落、字符。也有可能获得这些水平的每个方面的信心。因此,我查看了我的序列号中每个字符的可信度,并注意到tesseract通常返回的是最好的选择,而不是最自信的字符。有人也经历过这种情况吗?我在识别方面做错了什么吗?
例如,对于这样的位置,正确的序列号应该是:OC2VRHT5查看最后一个字符。虽然"5“有较高的可信度,但tesseract将"S”作为最佳选择。
**Tesseract output:**
symbol O, conf: 88.679855 - O