首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >开源希伯来语OCR

开源希伯来语OCR
EN

Software Recommendation用户
提问于 2015-07-17 06:16:21
回答 2查看 1.2K关注 0票数 10

Linux中有免费的希伯来OCR吗?Hocr不算,因为它的质量太差了。我发送计算机生成的文本(不是扫描,只是保存作为一个gif)通过它,它不能捡到任何东西。

对于OCR来说,这似乎是一个相当简单的图像。这些天来,它看起来不像一个CAPTCHA,但我听说OCR能够解析它们。如果是这样的话,这个图像就更加如此了。没有曲线,线切割文本等,但hocr不能OCR它。

如果不是,至少要一些可训练的东西(我给它500个字母,然后它将在此基础上做OCR )。

EN

回答 2

Software Recommendation用户

发布于 2019-08-16 15:03:51

是的,我用特塞尔特塞尔。它还为希伯来语提供语言文件。下面是Debian /Linux上可用的包的输出。这个软件是在Apache许可下获得许可的,版本2.0。

代码语言:javascript
运行
复制
$ apt search tesseract-ocr-heb
Sorting... Done
Full Text Search... Done
tesseract-ocr-heb/oldstable 3.04.00-1 all
  tesseract-ocr language files for Hebrew

核心包是tesseract,希伯来语的语言文件是:tesseract-ocr-heb

软件包: tesseract-ocr (1:4.00~git30-7274cfa-1)用于希伯来语Tesseract的Tesseract-OCR语言文件是一个开放源码的光学字符识别(OCR)引擎。它可以直接使用,也可以(对于程序员)使用API从图像中提取打印文本。这个包包含用希伯来语言处理图像所需的数据。

要使用它,请执行以下命令:

代码语言:javascript
运行
复制
tesseract -l heb /path/to/image.png /path/to/text

这里,-l heb指定了语言,其中image.png是包含希伯来文本的图像。输出将存储到text.txt文件中。

票数 2
EN

Software Recommendation用户

发布于 2022-01-10 14:25:56

是的,您也可以继续使用Tesseract,但是如果Captcha有一点先进,您可以使用EasyOCR为它训练自定义模型,或者如果captcha使用的字体类型有点难尝试使用。

票数 0
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/21207

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档