文章/答案/技术大牛

发布

社区首页 >问答首页 >开源OCR

问开源OCR
EN

Stack Overflow用户

提问于 2011-03-01 15:55:34

回答 3查看 22.9K关注 0票数 17

我正在寻找一个在Linux上运行的开源OCR库。我需要这个工作的PNG和PDF。大多数情况下，我想从java或ruby接口这个库。你知道有没有可用的东西？

致以问候。

pdf

ocr

java

ruby

linux

回答 3

Stack Overflow用户

发布于 2011-03-01 16:05:15

Tesseract是一个非常好的光学字符识别引擎：https://github.com/tesseract-ocr/tesseract

该项目由惠普实验室发起，现在由谷歌( Google Books !)继续并赞助。它是在Apache许可下发布的，并且在Linux上运行。它使用Tiff或PNGs文件；对于PDF，您需要转换为这些格式之一。我认为没有绑定，所以你应该将这个软件作为一个子程序来调用。

票数 13

Stack Overflow用户

发布于 2011-03-01 16:04:19

Cuneiform是免费的，而且做得很好。您可以将其作为子程序调用，但据我所知没有语言绑定。它不会直接读取PDF，但你可以很容易地拆分PDF，这些PDF是扫描的图像序列，将它们提供给楔形。还有一些脚本可以将图像和文本重新组合成可搜索的PDF。

票数 1

Stack Overflow用户

发布于 2011-05-15 08:27:30

试试tesjeract，它使用JNI来调用Tesseract OCR API。

对于PDF，你需要首先将它们转换成图像，例如，使用GhostScript。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5151798

复制

相似问题

问开源OCR
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问开源OCREN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问开源OCR
EN