专栏首页arxiv.org翻译专栏通过视觉匹配的适应性文本识别
原创

通过视觉匹配的适应性文本识别

在本篇论文中,我们的目标是解决文档中的文本识别泛化与灵活性的问题。我们引入了一个利用语言中字符的重复性模型,并且分离了视觉化习得与语言模型阶段。通过这样的方法, 我们将文本识别转化为了形状匹配问题,从而实现了外观泛化与类别上的灵活性。我们在不同字母的组成的合成及真实数据集上评估了新模型,结果显示,它能够处理传统架构只有通过昂贵的再培训才能解决的问题,包括:1、它可以概括未见的新字体而不需要提供示例;2、它可以灵活地更改类别的数量,只需更改提供的示例即可;3、通过提供新的字形集,它可以概括到没有经过训练的新语言和新字符。对于所有这些情况,我们都展示了与最先进的模型相比的显著改进。

原文题目:Adaptive Text Recognition through Visual Matching

原文:In this work, our objective is to address the problems of generalization and flexibility for text recognition in documents. We introduce a new model that exploits the repetitive nature of characters in languages, and decouples the visual representation learning and linguistic modelling stages. By doing this, we turn text recognition into a shape matching problem, and thereby achieve generalization in appearance and flexibility in classes. We evaluate the new model on both synthetic and real datasets across different alphabets and show that it can handle challenges that traditional architectures are not able to solve without expensive retraining, including: (i) it can generalize to unseen fonts without new exemplars from them; (ii) it can flexibly change the number of classes, simply by changing the exemplars provided; and (iii) it can generalize to new languages and new characters that it has not been trained for by providing a new glyph set. We show significant improvements over state-of-the-art models for all these cases.

原文作者:Yue Bai, Zhiqiang Tao, Lichen Wang, Sheng Li, Yu Yin, Yun Fu

原文地址:https://arxiv.org/abs/2009.06610

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 云存储上文件共享系统的缺陷

    云存储提供了一种更为简单的方式来私下和公开地共享文件。一个好的云存储提供商(SCP)不仅通过访问速度或可共享给他人的文件大小来衡量,而且还通过文件共享本身的安全...

    用户7724216
  • 在以自我为中心的照片串流中发现饮食习惯

    在我们生命的早期阶段就学习饮食习惯。但是,要知道我们与食物有关的常规如何影响我们的健康生活并不容易。在这项工作中,我们解决了以自我为中心的光流无监督地发现营养习...

    用户7724216
  • 情绪表达的多模态建模

    情绪表达是指到一个人倾向于通过行为向外表达他的情感的程度。由于情绪表达与行为健康的紧密的联系,及其在社交互动中的关键作用,自动预测情绪表达的能力将推动科学、医学...

    用户7724216
  • HoneyDrive_3基础学习

    这篇博文记录HoneyDrive_3_Royal_Jelly(1)系统应用整体的简介和(2)初期准备或相关具体功能的介绍说明,和(3)HoneyDrive_3的...

    py3study
  • 利用setTimeout和SetInterval构建Javascript计时器

    看到了一篇深入浅出的讲解setTimeout和setInterval的例子,直接讲英文贴出来吧,也不是很难。

    大江小浪
  • 第一批神经推测数据集和实验(CS AI)

    我们描述了一些数据集和通过神经方法创建猜想的第一个实验。数据集基于以多种形式处理的Mizar数学库,以及MPTP系统从中提取的问题,并由E证明者使用ENIGMA...

    刘子蔚
  • IPRally正在构建一个基于知识图的专利搜索引擎

    来自芬兰的一家新兴初创公司IPRally旨在解决专利检索问题,它已经筹集了200万欧元的种子基金。

    用户8054111
  • 实习杂记(31):android多dex方案二

    作为一个android开发者,在开发应用时,随着业务规模发展到一定程度,不断地加入新功能、添加新的类库,代码在急剧的膨胀,相应的apk包的大小也急剧增加, 那...

    wust小吴
  • visualize your CDS view via Analysis Path Framework (APF)

    Create a new configuration which acts as a container for sub settings such as Fi...

    Jerry Wang
  • How delta works

    Most existing big data storages based on HDFS are lack of feature upsert(if exis...

    用户2936994

扫码关注云+社区

领取腾讯云代金券