前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用faster-rcnn和MaskRCNN做表格检测

用faster-rcnn和MaskRCNN做表格检测

原创
作者头像
机器学习AI算法工程
修改2020-06-12 10:04:54
1.9K0
修改2020-06-12 10:04:54
举报

为什么需要提取文本图像中的表格区域?如果你做过OCR或者有一定了解,那么考虑这样一个场景:一张论文截图,有图有表还有公式,如果直接做OCR,首先纯文本区域应该是没问题的,对于表格区域如果你用的ocr接口效果不错那么应该可以识别出表格中的文字并且保留它们的相对位置,但是表格的结构肯定是被抛弃了的。虽然乍一看去没什么不对,但是没有线的表格是没有灵魂的。。。。

那么我们如果检测并且保留表格中的线也即是表格结构呢?两步走的策略:一、找出图像中表格的位置,二、检测出表格中的直线。

基于faster-rcnn的文本图像中的表格检测

GitHub:  https://github.com/luckydog5/TabelDetection

论文:https://www.researchgate.net/publication/320243569_Table_Detection_Using_Deep_Learning Table Detection Using Deep Learning

Reference

论文:https://www.researchgate.net/publication/320243569_Table_Detection_Using_Deep_Learning Table Detection Using Deep Learning

参考文章:https://blog.goodaudience.com/table-detection-using-deep-learning-7182918d778

先说第一个问题,从图像中检测出表格。如果你对object-detection有一定了解,那么很自然的你会考虑Faster-rcnn、YOLO、SSD等经典的detector,因为表格完全可以看作是一种object。图一是基于Faster-rcnn以及图像颜色空间变换的检测结果。

表格检测
表格检测

Faster-rcnn完全可以胜任这个工作。虽然不是特别的精确,但是还可以接受

网络结构
网络结构

由于faster-rcnn是被设计用于检测自然图像中的object,所以为了使其能够很好的兼容表格物体的检测必须对表格图像做变换使其能够贴近自然图像。之所以选择距离变换是因为距离变换通过计算文档图像中文本区域和空白区域之间的距离可以更好的突出文本中的表格区域。同时为了丰富表格区域的特征,作者用了三种不同的距离来对图像做变换。

faster-rcnn
faster-rcnn

MaskRCNN做表格检测

https://github.com/matterport/Mask_RCNN/

Mask RCNN沿用了Faster RCNN的思想,特征提取采用ResNet-FPN的架构,另外多加了一个Mask预测分支。可见Mask RCNN综合了很多此前优秀的研究成果。

MaskRCNN
MaskRCNN

MaskRCNN在有效检测目标的同时输出高质量的实例分割mask,作为FasterRCNN的扩展,用RolAlign代替了RoIPooling,RoIPooling使用取整量化,导致特征图RoI映射回原图RoI时空间不对齐明显,造成误差;RolAlign不使用取整量化而是采用双线性插值,完成像素级的对齐;

FasterRcnn为每个候选对象ROI提供两个输出,一个类标签,一个边界框偏移量,为此,MaskRCNN并行添加了第三个分割mask的分支,mask分支是应用到每一个ROI上的一个小的FCN(Fully Convolutional Network),以pix2pix的方式预测分割mask。

MaskRCNN具有很好的泛化适应能力,可以和多种RCNN框架结合,比较常见的如:

1)FasterRCNN/ResNet;

2)FasterRCNN/FPN

高质量的标注表格数据集

TableBank 开源地址:https://github.com/doc-analysis/TableBank

虽然人类在视觉上可以很容易地判断出一个表格,但由于表格的布局、样式多种多样,对于机器而言判断“何为表格”以及表格中内容之间的关系却并不容易。传统的基于规则的表格识别方式,一旦换一份文档就需要大量在文档后台的手工操作;而现有的机器学习方法,又无法获得大量有效的标注数据,很难支持实际场景中的应用。于是,TableBank应运而生。

TableBank是一个表格检测与识别的数据集,基于公开的、大规模的Word文档和LaTex文档,通过弱监督方法创建而来。与传统的弱监督训练集不同,TableBank不仅数据质量高,而且数据规模比之前的人工标记的表格分析数据集大几个数量级,其表格数据量达到了41.7万。

然而要让机器读懂表格,首先要能够从文档中识别哪些是表格,随后再去识别表格区域内的信息。

TableBank
TableBank
TableBank 开源
TableBank 开源

机器学习AI算法工程   公众号:datayx

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基于faster-rcnn的文本图像中的表格检测
    • MaskRCNN做表格检测
    • 高质量的标注表格数据集
    相关产品与服务
    AI 应用产品
    文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档