Loading [MathJax]/jax/output/CommonHTML/config.js
社区首页 >问答首页 >指定光学字符识别的最佳方法是什么?

指定光学字符识别的最佳方法是什么?
EN

Data Science用户
提问于 2017-03-23 00:53:00
回答 2查看 1.9K关注 0票数 4

我有一个完全可以理解的信息提取要求(发票号、发票数据、到期日、总数等)。从扫描发票(数字格式是图像,而不是PDF),最好是Python。好的是,所需的信息或多或少肯定存在于页面上,而这些信息的(regexp类)文本格式也往往是后续的。另一方面,缺点是发票的布局非常多样。

我使用了以下可能的方法:

  • 使用字符识别来提取纯文本,然后尝试与片段拼图。这种方法存在着相当大的问题: OCR的质量(至少是在tesseract库中已实现的OCR)相当平庸,输出是无可救药的非结构化的(实际上是一堆单词),即使对于普通短语,也很难找到任何regexp或其他规则。
  • 我的另一种方法是对原始图像本身或文本堆进行某种深度学习,在这种情况下,我们把繁重的工作留给网络,但在这种情况下,我不确定输出应该是什么?这是序列映射的某种序列吗?

确实是非常不寻常的任务。

EN

回答 2

Data Science用户

发布于 2017-03-23 03:48:55

光学字符识别是一个研究较多的问题,有许多可能的解决方案(资源来源).CNN已经证明,即使在手写字符识别方面也非常有效。看看这两篇论文:

这里是一个用Tensorflow做这件事的初学者教程。

如果您需要额外的数据来训练您的模型,请查看MNIST数据集

票数 1
EN

Data Science用户

发布于 2017-03-23 01:13:36

一种方法是采用一种很好的分割技术,然后用(ann,svm,knn.)等算法对所有区域进行分类,这种方法不需要大量的训练样本。另一种方法是应用深度学习(但这意味着大量的训练样本),您可以使用CNN,它执行一个回归,作为输出,它给你的文本(这意味着你必须设置一个最大的句子长度)。但是为了避免最大的句子长度,您可以使用带有一些RNN层的CNN,然后用图像的一部分(级联方法)给网络提供信息。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/17799

复制
相关文章
如何在小程序中获取用户信息
在以前的文章中,我们介绍了小程序的登录鉴权功能,方便开发者去获取用户的appid和session_key以便确认用户的身份。但是,仅仅通过appid和session_key不能去获取用户的信息。那么,这篇文章中,我们将介绍如何在小程序中获取用户的昵称、头像、性别、城市等信息。
it大叔
2019/01/25
6.7K0
如何在小程序中获取用户信息
微信小程序wx.getUserInfo接口获取用户信息失败,新版SDK怎样获取用户信息
不过,你会发现调用这个接口并没有返回用户信息。逛论坛才知道,这个接口被抛弃了。哎!但是腾讯也提供了新的方式,以下演示获取用户信息的流程。
极客开发者
2022/01/18
3K0
微信小程序wx.getUserInfo接口获取用户信息失败,新版SDK怎样获取用户信息
在 Kubernetes 中使用 Keycloak OIDC Provider 对用户进行身份验证
API Server 作为 Kubernetes 的网关,是用户访问和管理资源对象的入口。对于每个访问请求, API Server 都需要对访问者的合法性进行检查,包括身份验证、权限验证等等。Kubernetes 支持多种身份验证的方式,本文将对 OpenID Connect 认证进行介绍。
Se7en258
2022/04/18
6.8K0
在 Kubernetes 中使用 Keycloak OIDC Provider 对用户进行身份验证
Httpcontext 获取用户信息
http://mpvideo.qpic.cn/0bf23qaamaaamyanvrglafpfbxgda3oaabqa.f10002.mp4?dis_k=abd635532fae29e55080d65
老张的哲学
2022/04/11
1K0
如何在windows下和linux下获取文件(如exe文件)的详细信息和属性
最近在项目开发中,由cs开发的exe的程序,需要自动升级,该exe程序放在linux下,自动升级时检测不到该exe程序的版本号信息,但是我们客户端的exe程序需要获取服务器上新程序的版本号信息。最后由我用java实现linux上exe文件的版本号读取功能。下面是详细代码:
业余草
2019/01/21
6K0
如何在windows下和linux下获取文件(如exe文件)的详细信息和属性
微信使用getUserInfo和getUserProfile获取用户信息
getUserProfile是推荐使用的,官方在2021年4月之后,就不在推荐使用getUserInfo来获取用户信息(昵称和头像)。
软件小生活
2021/09/10
2.4K0
Typecho获取指定用户的信息
几年前写过类似的垃圾教程,今天因为需求原因,重新写了下教程,其实就是简单的sql查询! 获取指定uid用户的信息
泽泽社长
2023/04/17
1K0
小程序 获取用户信息
小程序端 一、页面index.js var commRequest=require("../../request/commRequest.js"); Page({ /** * 页面
用户5899361
2020/12/07
1.2K0
Magicodes.WeiChat——使用OAuth 2.0获取微信用户信息
使用Magicodes.WeiChat,可以很方便的获取到微信用户的信息。在使用OAuth 2.0之前,你先需要做以下操作:
雪雁-心莱科技
2018/12/27
7680
vue + 微信获取用户信息
本次项目做到一个点赞功能,即分享出去一个页面给微信好友,微信好友点开并点赞,需要将点赞用户的微信昵称,微信头像以及微信openid,微信unionid(这个需要关注公众号才会有该字段)传给后端,记录点赞人的相关信息
super.x
2019/04/12
3.5K0
vue + 微信获取用户信息
TNW-授权获取用户信息
TNW: TypeScript(The) + Node.js(Next) + WeChat 微信公众号开发脚手架,支持任何 Node.js 的服务端框架(Express、Nest、egg 等)
Javen
2019/07/30
1.3K0
NodeJs 获取 Git 用户和邮箱信息
获取 git config 的路径,一种是项目单独配置的,一种是全局配置的 'use strict'; const fs = require('fs'); const os = require('os'); const path = require('path'); module.exports = function (type) { let configPath = ''; const workDir = process.cwd(); if (type === 'global
子润先生
2021/06/28
2.2K0
从SpringMVC获取用户信息谈起
上周末拜读了一位牛人的公众号文章<[Token认证,如何快速方便获取用户信息](https://mp.weixin.qq.com/s/Qi82d5xmlYwiuaGRSn54uw)>,语言风趣,引人入胜,为了表示涛涛敬仰之情,已经转载到自己的公众号了。
A稻田守望者
2019/09/30
1.5K0
从SpringMVC获取用户信息谈起
NodeJs 获取 Git 用户和邮箱信息
获取 git config 的路径,一种是项目单独配置的,一种是全局配置的 'use strict'; const fs = require('fs'); const os = require('os'); const path = require('path'); module.exports = function (type) { let configPath = ''; const workDir = process.cwd(); if (type === 'global
上山打老虎了
2022/06/15
1.5K0
如何在CentOS上使用双重身份验证
在本教程中,您将学习如何在CentOS 7上使用一次性密码进行SSH上的双重身份验证。
朝朝
2018/08/20
2K0
如何在CentOS上使用双重身份验证
如何使用GPG密钥进行SSH身份验证
GPGTools为OS X提供了最简单的GPG实现。否则,js brew install gnupg2如果你有Homebrew,你可以运行。
evildickman
2018/09/04
8.7K1
OLAINDEX – 获取OneDrive应用 ID 和密钥
在近日,微软调整了 OneDrive 应用机密的方法。在调整过后,需要自行在Azure页面注册应用程序。这相比之前的「一键操作」来说似乎变得有些麻烦,因此我们准备了这篇文章。
怪兽
2022/10/04
2.8K0
OLAINDEX –  获取OneDrive应用 ID 和密钥
点击加载更多

相似问题

如何在OneDrive中使用Python进行身份验证?

12

获得OneDrive身份验证后的用户详细信息

22

使用Microsft Graph和OneDrive JS SDK获取共享的OneDrive文档

118

如何在用户使用Google Adwords OAuth进行身份验证时接收用户信息

11

使用OneDrive SDK从OneDrive下载文件

116
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文