专栏首页AI算法与图像处理史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)

史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)

一、前言

许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。随着互联网和移动互联网技术飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。

OCR(Optical Character Recognition) , 光学字符识别,是指对输入的扫描文档图像进行分析处理,检测并识别出该图像当中的文本信息; 而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。场景文本检测(Scene Text Detection),即准确定位自然场景中文本的位置,是场景文本分析与处理的基石。近年来,随着深度学习的发展,场景文本检测取得了突破性的进展。

二、场景文本检测数据集

本文总共整理了21个场景文本检测数据集,根据数据集的形式和应用场景可以按如下标准划分:

1. Horizontal-Text Datasets

ICDAR 2003、 ICDAR 2011、ICDAR 2013;

2. Arbitrary-Quadrilateral-Text Datasets:

USTB-SV1K、SVT、SVT-P、ICDAR 2015、COCO-Text、MSRA-TD500、MLT 2017、MLT 2019、CTW、RCTW-17、ReCTS;

3. Irregular-Text Datasets:

CUTE80、Total-Text、SCUT-CTW1500、LSVT、ArT;

4. Synthetic Datasets:

Synth80k、SynthText。

详细对比内容如表1所示,其中包括语种、图片以及文本数量(训练/测试)、标注类型等,更多内容详见资源链接。

表1 场景文本检测数据集对比

三、场景文本检测方法总结

本小节整理并对比了场景文本检测中70篇重要论文(发表于TPAMI、TIP等期刊以及CVPR,ICCV等CCF A类会议),对比内容包括代码是否开源、方法分类、适用场景、出处、时间以及创新点等。

本文将场景文本检测方法分为四类:

(a) Traditional methods;

(b) Segmentation-based methods;

(c) Regression-based methods;

(d) Hybrid methods.

详细对比见表2-5以及资源链接。注:表格中Hori,Quad和Irreg分别代表水平文本,任意四边形文本以及不规则文本。

1. Traditional methods

表2 传统场景文本检测方法对比

2. Segmentation-based methods

表3 基于分割的场景文本检测方法对比

3. Regression-based methods

表4 基于回归的场景文本检测方法对比

4. Hybrid methods

表5 场景文本检测的集成方法对比

四、场景文本检测结果汇总

本小节整理了70篇场景文本检测重要论文的在不同类型数据集上的评估结果。部分截图如下表,详细内容请见资源链接。(注:P、R、F 分别代表Precision、Recall和F-measure。)

1. Detection Results on Horizontal-Text Datasets

2. Detection Results on Arbitrary Quadrilateral Text Datasets

3. Detection Results on Irregular-Text Datasets

五、小结

本文总结了2012年以来在场景文本检测领域的70篇重要论文、21个常用数据集、15份论文开源代码、176个实验结果以及超过1300条统计信息。此外,我们还总结了近年来场景文本检测评估标准的相关论文和部分企业提供的OCR服务。详细内容见下面的Github链接。

Github资源链接

  • Scene Text Detection:https://github.com/HCIILAB/Scene-Text-Detection

本文分享自微信公众号 - AI算法与图像处理(AI_study)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 千万不要因为忽视这个,而坑了整个团队

    在读研期间,导师们都会非常的强调,如果引用别人的内容一定要在参考文献中注明,在学术界抄袭是非常严重的事情,可能会直接导致进入黑名单,而不仅仅是影响你一个人,可能...

    AI算法与图像处理
  • OpenCV还能实现这种效果? | 视频防抖技术

    这篇文章分享了一个视频防抖的策略,这个方法同样可以应用到其他领域,比如常见的关键点检测,当使用视频测试时,效果就没有demo那么好,此时可以考虑本文的方法去优化...

    AI算法与图像处理
  • OpenCV4.4 CUDA编译与加速全解析

    OpenCV4.4中关于CUDA加速的内容主要有两个部分,第一部分是之前OpenCV支持的图像处理与对象检测传统算法的CUDA加速;第二部分是OpenCV4.2...

    AI算法与图像处理
  • 光场领域深度估计

    本文将介绍光场领域进行深度估计的相关研究。光场相机是有一种区别于结构光,TOF,和双目相机的深度相机。 In this post, I’ll introduce...

    点云PCL博主
  • 16大类31种好看的可视化图表,图表控们快收藏!

    在日常工作中,很多人都会面对一堆数据,却不知道如何更直观地展示它们,或者不知道用什么样的图表能达到更好的展示效果!花了一些时间整理了工作中经常用到的数据图表,希...

    钱塘数据
  • 16大类31种好看的可视化图表,图表控们快收藏!

    在日常工作中,很多人都会面对一堆数据,却不知道如何更直观地展示它们,或者不知道用什么样的图表能达到更好的展示效果!花了一些时间整理了工作中经常用到的数据图表,希...

    钱塘数据
  • python之pexpect实现自动交互

    Pexpect 是 Expect 语言的一个 Python 实现,是一个用来启动子程序,并使用正则表达式对程序输出做出特定响应,以此实现与其自动交互的 Pyth...

    py3study
  • 为什么不建议把数据库部署在docker容器内?

    近2年Docker非常的火热,各位开发者恨不得把所有的应用、软件都部署在Docker容器中,但是您确定也要把数据库也部署的容器中吗?

    xcbeyond
  • 为什么不建议把数据库部署在docker容器内?

    近2年Docker非常的火热,各位开发者恨不得把所有的应用、软件都部署在Docker容器中,但是您确定也要把数据库也部署的容器中吗?

    IT大咖说
  • 在Ubuntu 16.04 Server上安装Zabbix的方法

    Zabbix 是企业级开源分布式监控服务器解决方案。该软件能监控网络的不同参数以及服务器的完整性,还允许为任何事件配置基于电子邮件的警报。Zabbix 根据存储...

    砸漏

扫码关注云+社区

领取腾讯云代金券