ViTEraser: Harnessing the Power of Vision Transformers for Scene Text Removal with SegMIM Pretraining
场景文本去除(Scene text removal,STR),目的是用视觉连贯的背景代替自然场景中的文本笔画。 最近的STR方法依赖于迭代改进或显式文本掩码,导致更高的复杂性和对文本定位准确性的敏感性。 此外,大多数现有的STR方法利用卷积神经网络(cnn)进行特征表示,而视觉ViT的潜力仍未得到充分开发。