我是一个全新的“光学字符识别”,需要一些更多的信息和建议,因为我不能找到它是不是可以做我需要的。
我有以下任务:
有没有可能使用一些OCR php库创建一个函数,然后只选择一些带文本的区域?
如果PHP没有好的OCR库,你能推荐一些其他语言的吗?
下面的例子演示了我想要做的事情(这只是一个例子,我并不是想做一些非法的金钱操作):
这是示例图像:
这是输出(用红色矩形包围的文本):
这是所有债务的法定货币,无论是公共债务还是PRIVATE
债务
欢迎所有的文章和建议。
发布于 2016-06-03 18:57:53
我推荐:https://github.com/tesseract-ocr/tesseract
PHP可能不是完成这项工作的最佳工具,但如果您愿意,您可以随时从PHP调用tesseract,然后解析从中获得的结果。
发布于 2016-10-05 06:58:54
我不知道有没有实现OCR的PHP扩展,但作为一种支持图像操作的通用脚本语言,PHP是集成其他工具的绝佳选择。
Tesseract and gocr是用于光学字符识别的开源命令行工具,两者都非常有效。但是,像任何OCR包一样,可能会遇到与您提供的图像相似的图像。如果您的PHP代码可以将文本与文本区域隔离开来,那么您将获得更好的结果。你仍然需要做一些数据清理--使用php拼写检查器。你会发现同样的误读模式不断出现--比如把'rn‘读成'm’。您的PHP代码应该能够识别和处理大多数情况。
关于识别文本区域的问题--这取决于文档的相似度。如果你使用1美元的钞票调优你的应用程序,它也许能够从其中的许多钞票中读取序列号--但它不知道如何读取不同的钞票。有许多图像识别工具可用,同样,cli工具将很容易集成。
发布于 2017-04-06 00:38:26
您可以使用Irfanview KADMOS 32位,然后安装插件:http://irfanview.info/plugins/kadmos/
Kadmos的DLL --至少对于插件来说--目前是32位的,这就是为什么它只适用于32位版本的Irfanview。
安装后,打开显示一些文本的图像,然后选择“选项>启动OCR...(插件)”菜单项。然后,您将能够通过拖放它周围的矩形来选择一些文本,重新识别的文本将在一个窗口中弹出,您可以从中复制它。该插件仅供个人(非商业)使用,但让您看看KADMOS是否适合您的需求。
如果你有很多图片要批量处理,你可以获得Kadmos DLL的许可。有关技术文档,请参阅:http://www.best-ocr.com/handbuch/book/html/files.html有关许可问题,请将上述URL中的"files.html“替换为"dll_e.htm”。
https://stackoverflow.com/questions/14022198
复制相似问题