GitHub项目推荐 | 场景文字图像增广工具 Scene Text Image Transformer

Scene Text Image Transformer是用于场景文本数据增强的工具。 我们提供的工具可以避免过度拟合并获得模型的稳健性。

目前我们专注于裁剪场景文本图像的形状。 检测和识别任务的下一个版本将在稍后发布。

项目地址:

https://github.com/Canjie-Luo/Scene-Text-Image-Transformer

环境要求

  • GCC 4.8.*
  • Python 2.7.*
  • Boost 1.67
  • OpenCV 2.4.*

我们推荐使用 Anaconda 去管理你的依赖环境。例如:

conda install boost=1.67.0

安装

建立目录:

mkdir build    
cd build
cmake -D CUDA_USE_STATIC_CUDA_RUNTIME=OFF ..
make

Augment.so复制到目标文件夹,然后按照demo.py的样例使用该工具。

cp Augment.so ..    
cd ..
python demo.py

演示

  • Distortion - 变形
  • Stretch - 伸展
  • Perspective - 透视

速度

使用2.0GHz的CPU转换大小(H:64,W:200)的图像仅需3ms不到。 可以通过动态调用多进程批处理采样器来加速该过程,例如在PyTorch中设置"num_workers"。

识别上的改进

我们比较了仅使用相应的小训练集训练 CRNN 的准确性。

数据集

IIIT5K

IC13

IC15

没有数据扩充

40.8%

6.8%

8.7%

有数据扩充

53.4%

9.6%

24.9%

引用

@inproceedings{schaefer2006image,
  title={Image deformation using moving least squares},
  author={Schaefer, Scott and McPhail, Travis and Warren, Joe},
  booktitle={ACM transactions on graphics (TOG)},
  volume={25},
  number={3},
  pages={533--540},
  year={2006},
  organization={ACM}
}

致谢

该工具是@cxcxcxcx's imgwarp-opencv 和 @Yati Sagade's opencv-ndarray-conversion的结合。 谢谢你们的贡献。

代码主要提交者:Canjie-Luo ,来自SCUT DLVC-Lab(华南理工大学深度学习与视觉计算实验室)

注意事项

该工具仅用于学术研究目的。

本文分享自微信公众号 - AI研习社(okweiwu)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券