首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场

开源OCR
EN

Stack Overflow用户
提问于 2011-03-01 15:55:34
回答 3查看 22.9K关注 0票数 17

我正在寻找一个在Linux上运行的开源OCR库。我需要这个工作的PNG和PDF。大多数情况下,我想从java或ruby接口这个库。你知道有没有可用的东西?

致以问候。

EN

回答 3

Stack Overflow用户

发布于 2011-03-01 16:05:15

Tesseract是一个非常好的光学字符识别引擎:https://github.com/tesseract-ocr/tesseract

该项目由惠普实验室发起,现在由谷歌( Google Books !)继续并赞助。它是在Apache许可下发布的,并且在Linux上运行。它使用Tiff或PNGs文件;对于PDF,您需要转换为这些格式之一。我认为没有绑定,所以你应该将这个软件作为一个子程序来调用。

票数 13
EN

Stack Overflow用户

发布于 2011-03-01 16:04:19

Cuneiform是免费的,而且做得很好。您可以将其作为子程序调用,但据我所知没有语言绑定。它不会直接读取PDF,但你可以很容易地拆分PDF,这些PDF是扫描的图像序列,将它们提供给楔形。还有一些脚本可以将图像和文本重新组合成可搜索的PDF。

票数 1
EN

Stack Overflow用户

发布于 2011-05-15 08:27:30

试试tesjeract,它使用JNI来调用Tesseract OCR API。

对于PDF,你需要首先将它们转换成图像,例如,使用GhostScript。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5151798

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档