前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >重磅开源!平安产险提出TableMASTER:表格识别大师

重磅开源!平安产险提出TableMASTER:表格识别大师

作者头像
Amusi
发布2021-08-10 14:10:53
2.8K0
发布2021-08-10 14:10:53
举报
文章被收录于专栏:CVer

AI/CV重磅干货,第一时间送达

TableMASTER

在4月份结束的 ICDAR2021 科学文献解析表格Table2HTML 赛道,平安财产保险视觉计算团队基于文本识别算法MASTER,提出了适用于表格识别的TableMASTER算法,并取得了该赛道的亚军。目前,作者团队基于开源工具箱mmocr,复现了该解决方案,代码已开源!

论文:https://arxiv.org/abs/2105.01848

GitHub代码链接:https://github.com/JiaquanYe/TableMASTER-mmocr

MASTER代码链接:https://github.com/JiaquanYe/MASTER-mmocr

背景

表格作为传递信息的文本格式之一,在文献(尤其是科学文献)中广泛存在。在 ICDAR2021 科学文献解析表格Table2HTML 比赛中,参赛选手需要设计一个算法模型或者算法系统,把包含表格数据的图像,转为HTML代码。平安财产保险视觉计算团队作为本次比赛参赛选手,提出了TableMASTER算法模型,采用多任务学习的模式,同时进行表格结构序列预测以及单元格位置回归,最后通过后处理匹配算法,融合表格结构序列和单元格文本内容,得到HTML代码。最终,团队以96.32 TEDS score的成绩,取得了该赛道的亚军。比赛的详细介绍可点击链接:

https://aieval.draco.res.ibm.com/challenge/40/overview

简介

整个解决方案可以分为4个部分:表格结构序列识别表格文本行检测表格文本行识别,以及单元格与表格结构序列匹配。表格识别的整个流程如下图所示。

在表格结构序列识别部分,使用的就是上述提到的TableMASTER。该模型改进自团队自研的文本识别算法MASTER。它与原生的MASTER在结构上的区别如下图所示。

TableMASTER的特征提取器与MASTER的特征提取器在结构上是大体一致的,采用的都是改进过的ResNet网络。但TableMASTER在解码阶段,经过一个Transformer Layer后,会分成两条分支。一条分支进行表格结构序列的监督学习,另一条分支则进行表格中单元格位置回归的监督学习。之所以经过一个Transformer Layer后再分开两个分支,而没有选择经过3个Transformer layer后再加两个不同任务的head,是为了更好的解耦特征。为了使表格序列预测的长度与回归单元格的数目对齐,在训练时会把单元格位置回归分支中非单元格的地方Mask掉,不算入bbox回归损失。同理,在预测时也会根据结构序列预测结果,Mask掉非单元格的地方,取其他位置的回归结果作为输出。TableMASTER单元格位置回归预测结果可视化如下图所示。

在表格文本行检测部分,我们采用的是经典的文本检测算法PSENet,进行文本行检测。需要的注意的是,比赛举办方使用的数据集为PubTabNet,其提供的标注文件中,并没有提供以文本行为单位的位置信息。因此,我们在训练集中随机抽取了2500张表格图片,进行了文本行的标注。标注结果将用于PSENet的训练。实验证明,在本任务中,2500张带标注的表格图片,足以训练一个近乎完美的文本检测模型。PSENet文本行检测可视化结果如下图所示。

在表格文本行识别部分,我们采用的是自研文本识别算法MASTER,对PSENet检测结果进行识别。由于PubTabNet数据集中只提供了单元格级别的位置信息,因此以该位置信息裁剪出来的文本行图片,是不仅包含单行文本,还有一部分是多行文本。而MASTER是基于2D注意力文本识别算法,因此可同时支持对单行、多行文本数据进行训练。采用PSENet + MASTER,文本行在验证集端对端的识别准确率可达0.9885

在单元格与表格结构序列匹配部分,我们定义了三种匹配规则,分别是Center Point RuleIOU Rule,以及Distance Rule。这三种匹配规则按一定优先级执行,先进行Center Point Rule的匹配,没匹配上的进行IOU Rule的匹配,最后是Distance Rule的匹配。关于匹配规则的详细描述,可参考技术文档中的2.4节。匹配效果如下图所示。

结论

  1. 提出的TableMASTER可以同时进行表格结构序列预测以及单元格位置预测
  2. 采用PSENet + MASTER文本行在验证集端对端的识别准确率可达0.9885
  3. 定义了三种匹配规则,用于融合TableMASTER输出的表格结构序列结果和PSENet + MASTER文本识别结果,得到最终的HTML代码
  4. 96.32 TEDS score的成绩,取得了该赛道的亚军

作者团队

平安财产保险视觉计算团队(VC组)专注解决金融保险领域的计算机视觉应用问题,团队积极创新,已有多项自研OCR 、关键性信息抽取技术。以下是团队近年来获得的荣誉:

  • 在ICDAR2019票据识别及关键信息3个任务中,团队分别斩获第二,第三,第一名;
  • Kaggle举办的百度/北大无人驾驶比赛中,获得亚军;
  • ICDAR2021科学文献解析表格Table2Latex 赛道冠军;
  • ICDAR2021科学文献解析表格Table2HTML 赛道亚军;
  • ICDAR2021数学公式检测赛道冠军;
  • 第五届中国创新挑战赛智慧教育专题赛手写公式识别亚军。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • TableMASTER
    • 背景
      • 简介
        • 结论
          • 作者团队
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档