前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Golang 和 Python 的 OCR 服务安装及使用

Golang 和 Python 的 OCR 服务安装及使用

作者头像
子兮子兮
发布2022-09-19 15:34:33
2.2K0
发布2022-09-19 15:34:33
举报
文章被收录于专栏:JavaGoRustJavaGoRust

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是 OCR 最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个 OCR 系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

如果是要在生产中使用,推荐使用 Python 版本或选择收费 OCR 服务,也可以尝试一下 飞桨 OCR 开源服务,但部署相对比较繁琐,本人目前还没有部署成功过。Go 版本仅用于学习、探索,效果非常赶人...

Go 语言的 OCR 识别服务安装

Go OCR 服务安装前提条件

  1. 推荐使用 Ubuntu 操作系统
  2. 执行 sudo apt update
  3. 安装 Go SDK

安装 GCC

代码语言:javascript
复制
1sudo apt install build-essential
2sudo apt-get install manpages-dev
3gcc --version

安装 OCR

安装依赖
代码语言:javascript
复制
1sudo apt install tesseract-ocr
2sudo apt install libleptonica-dev
3sudo apt install libtesseract-dev
4# 安装简体中文语言包
5sudo apt install tesseract-ocr-chi-sim
代码语言:javascript
复制
1# 查看包含的语言包
2tesseract --list-langs
安装 OCR 包
代码语言:javascript
复制
1go get github.com/otiai10/gosseract
安装 OCR 服务
代码语言:javascript
复制
1go install github.com/otiai10/ocrserver@latest
启动 OCR 服务
代码语言:javascript
复制
1PORT=8080 ocrserver
代码语言:javascript
复制
1# 如果是在 WSL2 中安装启动服务,需要执行此命令才能允许通过局域网 IP 进行访问
2netsh interface portproxy add v4tov6 listenport=8080 listenaddress=0.0.0.0 connectport=8080 connectaddress=::1
3# 查看端口代理列表
4netsh interface portproxy show all

启动服务后访问上面指定的 8080 端口即可看到 OCR 服务页面,如下所示:

image.png
image.png

Python 版本 OCR 服务安装

Python OCR 服务安装前提条件

  1. 安装 Git
  2. 项目要求使用 Python 3.6,亲测 Python 3.9 可用,Python 3.10 尚不能安装 onnxruntime,注意避坑

pip 加速

代码语言:javascript
复制
1pip install pytest -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
2# pip -v config list

安装依赖

代码语言:javascript
复制
1python -m pip install --upgrade pip
代码语言:javascript
复制
1python -m pip install tornado
2python -m pip install Pillow
3python -m pip install numpy
4python -m pip install opencv-python
5python -m pip install onnxruntime
6python -m pip install pyclipper
7python -m pip install shapely

下载项目

代码语言:javascript
复制
1git clone https://github.com/DayBreak-u/chineseocr_lite.git

启动服务

代码语言:javascript
复制
1cd ./chineseocr_lite
2python backend/main.py

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022-07-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Go 语言的 OCR 识别服务安装
    • Go OCR 服务安装前提条件
      • 安装 GCC
        • 安装 OCR
          • 安装依赖
          • 安装 OCR 包
          • 安装 OCR 服务
          • 启动 OCR 服务
      • Python 版本 OCR 服务安装
        • Python OCR 服务安装前提条件
          • pip 加速
            • 安装依赖
              • 下载项目
                • 启动服务
                相关产品与服务
                文字识别
                文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档