前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OCR-easyocr初识

OCR-easyocr初识

作者头像
机器学习AI算法工程
发布2022-08-26 13:11:25
2.5K0
发布2022-08-26 13:11:25
举报
文章被收录于专栏:机器学习AI算法工程

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程   公众号:datayx

一、介绍

批量文字识别(OCR)是Python办公自动化的基本操作,应用在我们工作生活中的方方面面,比如车牌识别、证件识别、银行卡识别、票据识别等等。

Python中OCR第三方库非常多,比如easyocr、PaddleOCR、cnocr等等。

EasyOCR 是一个用 Python 编写的 OCR 库,用于识别图像中的文字并输出为文本,支持 80 多种语言。

检测部分使用CRAFT算法,识别模型为CRNN,由3个组件组成:特征提取Resnet、序列标记LSTM、解码CTC。整个深度学习过程基于pytorch实现。

图片--预处理(去噪、色彩饱和度、尖锐处理等)--文字检测(CRAFT)--中间处理(倾斜处理等)---文字识别---后续处理---输出结果

二、安装

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple easyocr

模型储存路径:

windows:C:\Users\username\.EasyOCR\

linux:/root/.EasyOCR/

easyocr 的深度学习算法依赖于另一个著名的第三方模块 pytorch,图形处理部分则会用到 opencv、Pillow 等,所以还需要确保自己电脑上已经安装这些基础模块。

首次使用easyocr识别图片,会自动从网络中下载预训练模型。下载耗时较长,而且大概率遇到URLError错误,

推荐下载模型文件(下载链接:https://www.jaided.ai/easyocr/modelhub/),不用解压直接复制粘贴于~/.EasyOCR/model/目录下。

三、API文档

3.1、easyocr.Reader class:

参数:

lang_list (list) - 识别的语言代码列表,例如 ['ch_sim','en']

gpu (bool, string, default = True) - 启用 GPU

model_storage_directory (string, default = None) - 模型数据目录的路径。如果未指定,将从环境变量 EASYOCR_MODULE_PATH(首选)、MODULE_PATH(如果已定义)或 ~/.EasyOCR/ 定义的目录中读取模型。

download_enabled (bool, default = True) - 如果 EasyOCR 无法找到模型文件,则启用下载;

user_network_directory (bool, default = None) - 用户模型存储的路径。如果未指定,将从 MODULE_PATH + '/user_network' (~/.EasyOCR/user_network) 读取模型;

recog_network (string, default = 'standard') - 用户模型、模块和配置文件的名称;

detector (bool, default = True) - 将检测模型加载到内存中 

recognizer (bool, default = True) - 将识别模型加载到内存中

属性:

lang_char - 显示当前模型中的所有可用字符

3.2、reader.readtext()

Reader对象的主要方法。有 4 组参数:General、Contrast、Text Detection 和 Bounding Box Merging。

参数1:General

image (string, numpy array, byte) - 输入图像;

decoder (string, default = 'greedy')- 选项有 'greedy'、'beamsearch' 和 'wordbeamsearch';

beamWidth (int, default = 5) - 当解码器 = 'beamsearch' 或 'wordbeamsearch' 时要保留多少光束;

batch_size (int, default = 1) - batch_size>1 将使 EasyOCR 更快但使用更多内存;

worker (int, default = 0) - 数据加载器中使用的编号线程;

allowlist (string) - 强制 EasyOCR 只识别字符的子集。对特定问题有用(例如车牌等);

blocklist (string) - 字符的块子集。如果给定了允许列表,则此参数将被忽略。

detail (int, default = 1) - 将此设置为 0 以进行简单输出;

paragraph (bool, default = False) - 将结果合并到段落中;

min_size (int, default = 10) - 过滤文本框小于最小值(以像素为单位);

rotation_info (list, default = None) - 允许 EasyOCR 旋转每个文本框并返回具有最佳置信度分数的文本框。符合条件的值为 90、180 和 270。例如,对所有可能的文本方向尝试 [90, 180 ,270]。

参数2:Contrast 对比度

contrast_ths (float, default = 0.1) - 对比度低于此值的文本框将被传入模型 2 次。首先是原始图像,其次是对比度调整为“adjust_contrast”值。结果将返回具有更高置信度的那个;

adjust_contrast (float, default = 0.5) - 低对比度文本框的目标对比度级别。

参数3:Text Detection 文本检测(来自CRAFT)

text_threshold (float, default = 0.7) - 文本置信度阈值

low_text (float, default = 0.4) - 文本下限分数

link_threshold (float, default = 0.4) - 链接置信度阈值

canvas_size (int, default = 2560) - 最大图像尺寸。大于此值的图像将被缩小。

mag_ratio (float, default = 1) - 图像放大率

参数4:Bounding Box Merging 边界框合并

    这组参数控制相邻边界框何时相互合并。除了 'slope_ths' 之外的所有参数都以盒子高度为单位。

slope_ths (float, default = 0.1) - 考虑合并的最大斜率 (delta y/delta x)。低值意味着不会合并平铺框。

ycenter_ths (float, default = 0.5) - y 方向的最大偏移。不应该合并不同级别的框。

height_ths (float, default = 0.5) - 盒子高度的最大差异。不应合并文本大小非常不同的框。

width_ths (float, default = 0.5) - 合并框的最大水平距离。

add_margin (float, default = 0.1) - 将边界框向所有方向扩展某个值。这对于具有复杂脚本的语言(例如泰语)很重要。

x_ths (float, default = 1.0) - 当段落=True 时合并文本框的最大水平距离。

y_ths (float, default = 0.5) - 当段落 = True 时合并文本框的最大垂直距离。

返回:结果列表

四、识别模型  

https://github.com/JaidedAI/EasyOCR

4.1、训练识别模型

可以使用自己的数据或生成自己的数据集。要生成您自己的数据建议使用 TextRecognitionDataGenerator(GitHub - Belval/TextRecognitionDataGenerator: A synthetic data generator for text recognition)。

我们在此处提供了一个数据集示例。拥有数据集后,您可以按照此存储库 deep-text-recognition-benchmark(https://github.com/clovaai/deep-text-recognition-benchmark)训练自己的模型。网络需要完全卷积才能预测灵活的文本长度。我们当前的网络是“None-VGG-BiLSTM-CTC”。一旦你有了训练好的模型(一个.pth文件),你需要两个额外的文件来描述识别网络架构和模型配置。此处custom_example.zip的文件中提供了一个示例。

我们还在此处

https://github.com/JaidedAI/EasyOCR/tree/master/trainer

提供我们的训练脚本版本。它是deep-text-recognition-benchmark的修改版本。

4.2、使用自定义的识别模型

需要三个文件,这三个文件必须共享相同的名称,即yourmodel.pth,  yourmodel.yaml,yourmodel.py,然后您将使用它们在 EasyOCR API 中调用您的模型。

请下载custom_example.zip 作为示例,解压并放置custom_example.py,custom_example.yaml在user_network_directory(默认= ~/.EasyOCR/user_network),放置custom_example.pth在模型目录(默认= ~/.EasyOCR/model)。一旦你将所有3个文件放在各自的位置,你可以通过设置recog_network来使用custom_example:reader = easyocr.Reader(['en'], recog_network='custom_example')

五、使用

5.1、基本使用1

可以通过命令行使用如下:

代码语言:javascript
复制
$ easyocr -l ch_sim en -f chinese.jpg --detail=1 --gpu=True 

5.2、基本使用2

原文地址

https://blog.csdn.net/leiwuhen92/article/details/126418919

代码语言:javascript
复制
机器学习算法AI大数据技术 搜索公众号添加: datanlp长按图片,识别二维码

阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

《深度学习:基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!
《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目
特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源深度学习、机器学习、数据分析、python 搜索公众号添加: datayx  
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 五、使用
    • 5.1、基本使用1
      • 5.2、基本使用2
      相关产品与服务
      文字识别
      文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档