前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GitHub项目推荐 | 场景文字图像增广工具 Scene Text Image Transformer

GitHub项目推荐 | 场景文字图像增广工具 Scene Text Image Transformer

作者头像
AI研习社
发布2018-12-26 11:22:53
9660
发布2018-12-26 11:22:53
举报
文章被收录于专栏:AI研习社AI研习社

Scene Text Image Transformer是用于场景文本数据增强的工具。 我们提供的工具可以避免过度拟合并获得模型的稳健性。

目前我们专注于裁剪场景文本图像的形状。 检测和识别任务的下一个版本将在稍后发布。

项目地址:

https://github.com/Canjie-Luo/Scene-Text-Image-Transformer

环境要求

  • GCC 4.8.*
  • Python 2.7.*
  • Boost 1.67
  • OpenCV 2.4.*

我们推荐使用 Anaconda 去管理你的依赖环境。例如:

代码语言:javascript
复制
conda install boost=1.67.0

安装

建立目录:

代码语言:javascript
复制
mkdir build    
cd build
cmake -D CUDA_USE_STATIC_CUDA_RUNTIME=OFF ..
make

Augment.so复制到目标文件夹,然后按照demo.py的样例使用该工具。

代码语言:javascript
复制
cp Augment.so ..    
cd ..
python demo.py

演示

  • Distortion - 变形
  • Stretch - 伸展
  • Perspective - 透视

速度

使用2.0GHz的CPU转换大小(H:64,W:200)的图像仅需3ms不到。 可以通过动态调用多进程批处理采样器来加速该过程,例如在PyTorch中设置"num_workers"。

识别上的改进

我们比较了仅使用相应的小训练集训练 CRNN 的准确性。

数据集

IIIT5K

IC13

IC15

没有数据扩充

40.8%

6.8%

8.7%

有数据扩充

53.4%

9.6%

24.9%

引用

代码语言:javascript
复制
@inproceedings{schaefer2006image,
  title={Image deformation using moving least squares},
  author={Schaefer, Scott and McPhail, Travis and Warren, Joe},
  booktitle={ACM transactions on graphics (TOG)},
  volume={25},
  number={3},
  pages={533--540},
  year={2006},
  organization={ACM}
}

致谢

该工具是@cxcxcxcx's imgwarp-opencv 和 @Yati Sagade's opencv-ndarray-conversion的结合。 谢谢你们的贡献。

代码主要提交者:Canjie-Luo ,来自SCUT DLVC-Lab(华南理工大学深度学习与视觉计算实验室)

注意事项

该工具仅用于学术研究目的。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-12-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 项目地址:
  • 环境要求
  • 安装
  • 演示
  • 速度
  • 识别上的改进
  • 引用
  • 致谢
  • 注意事项
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档