首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何创建专门的机器视觉OCR解决方案?

如何创建专门的机器视觉OCR解决方案?
EN

Stack Overflow用户
提问于 2017-02-02 16:07:31
回答 1查看 982关注 0票数 3

我们需要阅读iPad相机拍摄的销售收入照片中的一些文字。下面是一个类似于我们需要阅读的示例:

这个问题有几个制约因素:

  1. 我们需要读取总是出现在文本标记之后的总量(例如本例中的Grand Total )。
  2. 字体总是一样的。
  3. 应用程序必须在没有网络连接的情况下脱机工作。

到目前为止,我们已经尝试过这样做:

  • 谷歌移动视觉文本提取就像魔法一样有效。但是,文本提取仅在Android中可用。我们需要在iOS中构建解决方案。
  • 谷歌( Google )和微软( Microsoft )都有基于云的机器视觉解决方案,它们的工作也非常准确。但是我们的应用程序需要离线工作。
  • 使用tesseract OCR。表现很差。毫无疑问,因为我们有一张照片,而不是扫描的黑白图像。

我们现在正在考虑使用卷积神经网络创建一个自定义解决方案。我的问题是,我们如何建立一个模型,利用这两个约束,创造一个更简单,但非常准确的解决方案?

  1. 总金额总是出现在文本标记之后。我们可以安全地忽略其余的文本。
  2. 文本总是以英语和相同的字体。

这是我们到目前为止提出的一般管道。

  1. 调整图像,并将其缩放到标准大小。
  2. 进行conv来定位文本标记(Grad )应该相当容易。我们可以完全跳过图像的上半部分。

我们不知道现在还能做些什么。任何建议、建议和帮助都会很棒。

PS。我意识到这是一个关于设计方法的问题,而不是一个具体的编程问题。如果这违反了规定,我很抱歉。

EN

回答 1

Stack Overflow用户

发布于 2017-10-15 17:27:10

我建议您考虑deeplearning4j.org解决方案。你可以在强大的机器上训练他们的网络,然后保存网络状态并在android上使用。这里解释了如何在java的帮助下在安卓应用程序上使用他们的网络。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42006965

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档