深度学习在OCR中的应用论文及代码集锦(2)

您可能感兴趣

本篇文章基于上面这篇,故论文编号沿用上一篇的编号

[7] SSD: Single Shot MultiBox Detector

Wei Liu et al.

ECCV 2016

https://www.cs.unc.edu/~wliu/papers/ssd.pdf

SSD利用深度神经网络将边界框的输出空间离散化到多个特征映射中,这些特征映射具有不同的纵横比和尺度。测试时,网络对每个箱中的物体类别给出打分,并且能够生成比较好的边界来描述物体的形状。这种网络能够结合多个具有不同分辨率的特征映射给出的预测结果,这样可以比较自然地处理物体类别具有不同尺寸的情形。

SSD以及YOLO的网络结构示例如下

各方法效果对比如下

代码地址

https://github.com/weiliu89/caffe/tree/ssd

[8] Reading Text in the Wild with Convolutional Neural Networks

Max Jaderberg et al.

IJCV 2016

https://arxiv.org/pdf/1412.1842.pdf

这篇文章提出一种端到端的文本检测系统,它能够定位并且识别自然场景图片中的文本,这种方法比较适用于基于文本的图像检索。该系统基于区域划分机制和深层卷积神经网络。整个流程不仅可以保证高召回率,而且可以具有提高准确率的策略。

整体流程示例如下

文中使用的卷积神经网络结构示例如下

效果示例如下

该论文中数据集信息描述如下

实验效果如下

各方法效果对比如下

下面是耗时统计

代码地址

https://github.com/mathDR/reading-text-in-the-wild

[9] You Only Look Once:Unified, Real-Time Object Detection

Joseph Redmon et al.

CVPR 2016

https://pjreddie.com/media/files/papers/yolo.pdf

YOLO是一种物体检测的方法。这种方法根据图像可以利用单个神经网络来同事预测边界分割以及类别概率。这种统一的架构非常快,一秒即可实时处理45帧图像。

YOLO示例如下

网络结构示例如下

各方法效果对比如下

代码地址

https://github.com/pjreddie/darknet

[10] Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick et al.

CVPR 2014

https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

这篇文章所提出的方法具有两个关键的点,其中之一即为利用卷积神经网络自下而上的预测区域,进而可以定位并且分割出物体,其二即为缺少带标签的样本数据时,有监督预训练结合领域相关的微调可以使得效果具有显著提升。这种方法将区域分割跟卷积神经网络结合,因此这种方法称为R-CNN。

方法概览如下

各方法效果对比如下

代码地址

https://github.com/rbgirshick/rcnn

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180910G09XXT00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券