前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文本检测算法EAST介绍

文本检测算法EAST介绍

作者头像
算法之名
发布2022-03-24 11:14:04
1.7K0
发布2022-03-24 11:14:04
举报
文章被收录于专栏:算法之名算法之名

EAST由旷世科技于2017年发表在CVPR的关于自然场景文本检测的一篇文章。EAST是用来解决多方向文本检测的问题的一种思路。其核心思想体现在了以下几点。

  1. 采用了FCN这样一种多尺度融合的方法来进行特征的抽取,用于后续的像素级的文本区域的预测。
  2. EAST能够直接打到倾斜文本检测的目的,能够完成自然场景下文本检测的任务。支持旋转矩形框、任意四边形两种文本区域的标注形式。换句话说EAST在回归文本区域的时候包括了旋转矩形框、矩形框加旋转角或者任意四边形这样两种不同的区域检测的过程。
  3. 由于考虑了方向信息,可以检测出各个方向的文本。
  4. 由于感受野的问题,对较长的文本检测效果欠佳。
  • EAST模型网络结构

在上图中我们可以看到它主要采用了FPN的思想来提取多尺度的融合特征。对原始的图像进行特征提取一直到7*7的大小之后,会分别进行上采样,一直上采样到同7*7一致的feature map上,在这个过程中融合了不同尺度的特征,这里采用了concat的方式对多尺度的特征进行连接。得到多尺度的特征之后将它作为后续输出层的输入。这里整体是一个FPN的结构。在输出层有两种不同的输出,这两种不同的输出则对应到了旋转矩形框(1个score map+4个回归框+1个角度信息)和任意四边形(1个score map+8个坐标信息)

  • EAST标签

上图中对于a图是一块文本区域,对于黄色区域,它表示了原始的文本矩形。绿色区域是对黄色区域0.3倍缩放后的一个框,针对这样一个框,作者定义了这样一个score map(b图),也就是文本分数特征图。通过对文本区域计算它的外接矩形,也就是c图中的粉色区域,也就能得到RBOX的label信息。对于角度,我们同样计算矩形区域同水平线所产生的夹角,这个夹角表达为RBOX的旋转角度。有了这样一个外接矩形区域以及原始的文本区域,此时我们就能够计算出从矩形的四个顶点到像素位置的坐标偏移。这个四个坐标偏移则最终表达为8个维度的输出信息。此时我们就能够得到RBOX以及四边形区域,并且用于后续的网络的回归和预测。

  • EAST损失函数

作者采用了Balanced-xent(类平衡交叉熵)、IOU loss和角度loss。这三种loss结合的方法来得到最终的loss。

类平衡交叉熵主要用来解决类别不平衡训练的问题。这里的ß表示为负样本的数量占总样本的数量的比率。IOU loss表达为矩形框所对应的IOU的计算结果。这里是针对于文本区域所对应的矩形区域得到的IOU。角度loss,这里采用余弦距离作为角度的loss。通过将这三组loss结合之后得到网络的损失函数,并且用于后续的训练。

在训练的过程中作者采用了均衡采样和难例挖掘的策略来解决目标的不平衡分布的问题进而提高网络的性能。在得到最终的检测Boundiing box之后,作者同样对最终的NMS算法提出了优化,提出了局部感知的NMS策略。对于局部感知NMS,作者采用了以下一些策略来针对标准的NMS来进行改进。

如果两个区域的IOU高于某个阈值的话,作者就会将这两个输出框进行合并。合并之后的输出框的坐标数值为两个合并框的中间。通过这样的策略来利用更多的回归信息,减少最终的误差。通过局部感知的NMS算法,能够提高最终生成结果的速度。

  • EAST网络性能对比

对比EAST算法同其他的文本检测算法,我们可以看到在ICDAR 2015和MSRA-TD500这样两个数据集上,EAST算法同样能够达到较好的效果。作者也对比了采用不同的主干网络,不同的回归策略,所得到的最终检测性能的对比。可以发现采用RBOX和MS得到的结果是最优的。

  • EAST模型效果图

针对于自然场景下的文本图片,EAST能够检测出不同方向,不同角度,不同背景,不同环境,不同字体等等各种条件下的文本区域。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022/02/04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档