前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Vedastr:基于PyTorch的场景文本识别工具箱

Vedastr:基于PyTorch的场景文本识别工具箱

作者头像
Amusi
发布2020-07-22 09:54:16
8980
发布2020-07-22 09:54:16
举报
文章被收录于专栏:CVerCVer

1. Vedastr的特性

STR(Scene Text Recognition)的任务是识别文字框中的内容。我们在做关于STR的项目时发现,相关开源的toolbox较少,调研后发现现有的toolbox存在以下几个问题:

  1. 模块化程度较低
  2. 提供可配置接口较少
  3. 更新维护较少

基于此,我们在调研了一系列的STR相关论文的基础上,构建了一个基于PyTorch的STR的toolbox——Vedastr,具有以下几个特性:

  1. 模块化
  2. 易拓展性
  3. 配置简单
  4. 较完善的日志系统
  5. 及时的更新维护

Vedastr项目链接:

https://github.com/Media-Smart/vedastr

2. Vedastr的运行方式

2.1 配置文件

Vedastr提供了开放式接口,可以在config文件配置相关参数。比如,我们配置optimizer和learning rate scheduler的参数:

代码语言:javascript
复制
optimizer = dict(type='Adam', lr=0.001)
lr_scheduler = dict(type='StepLR', max_epochs=3, milestones=[100000, 200000])

2.2 Train、test和demo

  • Train
代码语言:javascript
复制
python tools/train.py config-path
  • Test
代码语言:javascript
复制
python tools/test.py config-path checkpoint-path
  • Demo
代码语言:javascript
复制
python tools/demo.py config-path checkpoint-path img-path

3. 预训练模型

3.1 使用Vedastr复现的模型性能

Vedastr目前支持基于attention、ctc、fc和transformer的str方法。我们复现了几个STR模型,你可以在Benchmark and model zoo找到他们。下面是我们的一些复现指标:

  • TPS-ResNet-BiLSTM-Attention:What Is Wrong With Scene Text Recognition Model Comparisons?
  • Small-SATRN:On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

3.2 使用预训练模型实现一个demo

举个简单的例子:

  1. 下载 TPS-ResNet-BiLSTM-Attention
  2. 下载vedastr,按照Installation进行安装
  3. 激活conda环境,运行demo文件,识别的结果就会显示在你的终端窗口上
代码语言:javascript
复制
python tools/demo.py configs/tps-resnet-bilstm-attention TPS-ResNet-BiLSTM-Attention.pth input-img

input-img:

终端窗口:

Vedastr项目链接如下,欢迎使用和star!

https://github.com/Media-Smart/vedastr

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档