AI/CV重磅干货,第一时间送达
在4月份结束的 ICDAR2021 科学文献解析表格Table2HTML 赛道,平安财产保险视觉计算团队基于文本识别算法MASTER,提出了适用于表格识别的TableMASTER算法,并取得了该赛道的亚军。目前,作者团队基于开源工具箱mmocr,复现了该解决方案,代码已开源!
论文:https://arxiv.org/abs/2105.01848
GitHub代码链接:https://github.com/JiaquanYe/TableMASTER-mmocr
MASTER代码链接:https://github.com/JiaquanYe/MASTER-mmocr
表格作为传递信息的文本格式之一,在文献(尤其是科学文献)中广泛存在。在 ICDAR2021 科学文献解析表格Table2HTML 比赛中,参赛选手需要设计一个算法模型或者算法系统,把包含表格数据的图像,转为HTML代码。平安财产保险视觉计算团队作为本次比赛参赛选手,提出了TableMASTER算法模型,采用多任务学习的模式,同时进行表格结构序列预测以及单元格位置回归,最后通过后处理匹配算法,融合表格结构序列和单元格文本内容,得到HTML代码。最终,团队以96.32 TEDS score的成绩,取得了该赛道的亚军。比赛的详细介绍可点击链接:
https://aieval.draco.res.ibm.com/challenge/40/overview
整个解决方案可以分为4个部分:表格结构序列识别,表格文本行检测,表格文本行识别,以及单元格与表格结构序列匹配。表格识别的整个流程如下图所示。
在表格结构序列识别部分,使用的就是上述提到的TableMASTER。该模型改进自团队自研的文本识别算法MASTER。它与原生的MASTER在结构上的区别如下图所示。
TableMASTER的特征提取器与MASTER的特征提取器在结构上是大体一致的,采用的都是改进过的ResNet网络。但TableMASTER在解码阶段,经过一个Transformer Layer后,会分成两条分支。一条分支进行表格结构序列的监督学习,另一条分支则进行表格中单元格位置回归的监督学习。之所以经过一个Transformer Layer后再分开两个分支,而没有选择经过3个Transformer layer后再加两个不同任务的head,是为了更好的解耦特征。为了使表格序列预测的长度与回归单元格的数目对齐,在训练时会把单元格位置回归分支中非单元格的地方Mask掉,不算入bbox回归损失。同理,在预测时也会根据结构序列预测结果,Mask掉非单元格的地方,取其他位置的回归结果作为输出。TableMASTER单元格位置回归预测结果可视化如下图所示。
在表格文本行检测部分,我们采用的是经典的文本检测算法PSENet,进行文本行检测。需要的注意的是,比赛举办方使用的数据集为PubTabNet,其提供的标注文件中,并没有提供以文本行为单位的位置信息。因此,我们在训练集中随机抽取了2500张表格图片,进行了文本行的标注。标注结果将用于PSENet的训练。实验证明,在本任务中,2500张带标注的表格图片,足以训练一个近乎完美的文本检测模型。PSENet文本行检测可视化结果如下图所示。
在表格文本行识别部分,我们采用的是自研文本识别算法MASTER,对PSENet检测结果进行识别。由于PubTabNet数据集中只提供了单元格级别的位置信息,因此以该位置信息裁剪出来的文本行图片,是不仅包含单行文本,还有一部分是多行文本。而MASTER是基于2D注意力文本识别算法,因此可同时支持对单行、多行文本数据进行训练。采用PSENet + MASTER,文本行在验证集端对端的识别准确率可达0.9885。
在单元格与表格结构序列匹配部分,我们定义了三种匹配规则,分别是Center Point Rule,IOU Rule,以及Distance Rule。这三种匹配规则按一定优先级执行,先进行Center Point Rule的匹配,没匹配上的进行IOU Rule的匹配,最后是Distance Rule的匹配。关于匹配规则的详细描述,可参考技术文档中的2.4节。匹配效果如下图所示。
平安财产保险视觉计算团队(VC组)专注解决金融保险领域的计算机视觉应用问题,团队积极创新,已有多项自研OCR 、关键性信息抽取技术。以下是团队近年来获得的荣誉: