主要是基于 Faster R-CNN. 根据文字检测场景的特点(水平排列),改进 RPN 网络、Anchors 和 Loss 函数. 关键点: 文本细尺度 proposals的检测(detecting text in fine-scale proposals); 递归地连接文本 proposals(recurrent connectionist text proposals); 侧边改进(side-refinement).
CTPN(Connectionist Text Proposal Network),end-to-end 框架:
对比 Faster R-CNN 中的 RPN(Region Proposal Netwoork):
左:RPN proposals; 右:细尺度的文本 proposals.
CTPN,垂直 anchor 机制,同时预测 文本/非文本 score 和每个细尺度 proposal 的 y-轴位置:
文本具有较强序列性特点,以表达序列化的上下文信息.
采用双向 long short-term memory (LSTM) 结构作为 RNN layer,其作用效果:
上:CTPN without RNN;
下:CTPN with RNN.
在获得细尺度文本 proposals 后,根据 文本/非文本 score 是否大于 0.7,将连续的文本 proposals 连接,以构建文本行.
在细尺度文本 proposals 检测和 RNN 连接后,可以得到垂直方向的精确位置.
水平方向上,图片被分为等宽 16 pixel 的 proposals 序列. 可能导致文本 proposals 的水平方向侧边不够精确,如图 Figure 4.
侧边改进,大概能提高 2% 精度.
Multi-task Loss 函数:
[1] - CSDN 博客 - CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network
[2] - CSDN 博客 - [论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network