我正在寻找一个在Linux上运行的开源OCR库。我需要这个工作的PNG和PDF。大多数情况下,我想从java或ruby接口这个库。你知道有没有可用的东西?
致以问候。
发布于 2011-03-01 16:05:15
Tesseract是一个非常好的光学字符识别引擎:https://github.com/tesseract-ocr/tesseract
该项目由惠普实验室发起,现在由谷歌( Google Books !)继续并赞助。它是在Apache许可下发布的,并且在Linux上运行。它使用Tiff或PNGs文件;对于PDF,您需要转换为这些格式之一。我认为没有绑定,所以你应该将这个软件作为一个子程序来调用。
发布于 2011-03-01 16:04:19
Cuneiform是免费的,而且做得很好。您可以将其作为子程序调用,但据我所知没有语言绑定。它不会直接读取PDF,但你可以很容易地拆分PDF,这些PDF是扫描的图像序列,将它们提供给楔形。还有一些脚本可以将图像和文本重新组合成可搜索的PDF。
发布于 2011-05-15 08:27:30
试试tesjeract,它使用JNI来调用Tesseract OCR API。
对于PDF,你需要首先将它们转换成图像,例如,使用GhostScript。
https://stackoverflow.com/questions/5151798
复制相似问题