前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用paddleocr识别和训练数据

使用paddleocr识别和训练数据

作者头像
sofu456
发布2021-12-06 14:17:22
8940
发布2021-12-06 14:17:22
举报
文章被收录于专栏:sofu456sofu456

安装

安装paddle,pip install paddlepaddle、paddlepaddle-gpu(gpu版本) 安装ocr,pip install paddleocr,gitee上的源码https://gitee.com/paddlepaddle/PaddleOCR.git

原理

使用mobilev3、resnet骨干网络训练实现以下功能:

  • 目标检测,检测文字(文字使用的预训练好的分类器数据,类似yolo使用darknet分类)
  • 方向分类器,最小外接矩形
  • 识别,识别文字

使用

代码语言:javascript
复制
ocr = PaddleOCR()
result = ocr.ocr("test1.bmp", cls=True)
for line in result:
    print(line)

自己训练训练模型,构造如下

代码语言:javascript
复制
det_model_dir='model/det', rec_model_dir='model/rec',
                rec_char_dict_path='model/ppocr_keys_v1.txt', cls_model_dir='model/cls', use_angle_cls=True

训练

cd PaddleOCR/ wget -P ./train_data/ https://paddleocr.bj.bcebos.com/dataset/train_icdar2015_label.txt wget -P ./train_data/ https://paddleocr.bj.bcebos.com/dataset/test_icdar2015_label.txt

标签格式如下:

在这里插入图片描述
在这里插入图片描述

训练数据文件结构

在这里插入图片描述
在这里插入图片描述

启动训练

python3 tools/train.py -c configs/det/det_mv3_db.yml -o Global.pretrain_weights=./pretrain_models/MobileNetV3_large_x0_5_pretrained/

参考:https://gitee.com/paddlepaddle/PaddleOCR/blob/release/2.1/doc/doc_ch/detection.md

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-05-04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 安装
  • 原理
  • 使用
  • 训练
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档