Linux中有免费的希伯来OCR吗?Hocr不算,因为它的质量太差了。我发送计算机生成的文本(不是扫描,只是保存作为一个gif)通过它,它不能捡到任何东西。
对于OCR来说,这似乎是一个相当简单的图像。这些天来,它看起来不像一个CAPTCHA,但我听说OCR能够解析它们。如果是这样的话,这个图像就更加如此了。没有曲线,线切割文本等,但hocr不能OCR它。
如果不是,至少要一些可训练的东西(我给它500个字母,然后它将在此基础上做OCR )。
发布于 2019-08-16 15:03:51
是的,我用特塞尔特塞尔。它还为希伯来语提供语言文件。下面是Debian /Linux上可用的包的输出。这个软件是在Apache许可下获得许可的,版本2.0。
$ apt search tesseract-ocr-heb
Sorting... Done
Full Text Search... Done
tesseract-ocr-heb/oldstable 3.04.00-1 all
tesseract-ocr language files for Hebrew
核心包是tesseract
,希伯来语的语言文件是:tesseract-ocr-heb:
软件包: tesseract-ocr (1:4.00~git30-7274cfa-1)用于希伯来语Tesseract的Tesseract-OCR语言文件是一个开放源码的光学字符识别(OCR)引擎。它可以直接使用,也可以(对于程序员)使用API从图像中提取打印文本。这个包包含用希伯来语言处理图像所需的数据。
要使用它,请执行以下命令:
tesseract -l heb /path/to/image.png /path/to/text
这里,-l heb
指定了语言,其中image.png
是包含希伯来文本的图像。输出将存储到text.txt
文件中。
发布于 2022-01-10 14:25:56
是的,您也可以继续使用Tesseract,但是如果Captcha有一点先进,您可以使用EasyOCR为它训练自定义模型,或者如果captcha使用的字体类型有点难尝试使用。
https://softwarerecs.stackexchange.com/questions/21207
复制相似问题