开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >华南理工2020《场景文本识别综述》简记

华南理工2020《场景文本识别综述》简记

作者头像

公众号机器学习与AI生成创作

发布于 2020-05-21 17:34:47

1.2K0

发布于 2020-05-21 17:34:47

举报

文章被收录于专栏：机器学习与生成对抗网络

这是一篇论文简记，原文出自SCUT电信学院金连文老师组。

概要

文本历史可以追溯到数千年前。在广泛视觉应用场景中，文本所携带的丰富语义信息非常重要。故自然场景文本识别已经成为计算机视觉和模式识别的活跃研究领域。
近年来，随着深度学习的兴起和发展，许多方法在创新性、实用性和效率方面都显示出了巨大前景。
本文旨在总结与场景文本识别相关的基本问题和最新技术；介绍新的见解和思路；对现有公开资源进行综合回顾；指出今后的工作方向。
总而言之，这篇文献综述试图展示了场景文本识别领域的整体情况，为进入该领域的初学者提供了全面参考。
Github：https：//github.com/HCIILAB/Scene-Text-Recognition
https://arxiv.org/pdf/2005.03492.pdf

简介

文字是用于记录、交流，或继承文化；作为最具影响力的发明之一，文字在人类中扮演了重要角色。
在视觉应用任务中，文本携带的丰富语义信息非常重要：例如图像搜索、智能检查、工业自动化、机器人导航、和实时翻译。
因此，自然场景文字识别中引起了研究人员和从业人员的高度重视，如最近出现的“ ICDAR比赛”。
在自然场景中识别文本，也称为场景文本识别（scene text recognition，STR），通常被认为是一种特殊的光学字符识别（OCR）。
尽管扫描文档的OCR已经发展得很好，但由于复杂的背景、各种字体、成像条件差等等因素，STR仍然极具挑战。图1对STR和OCR进行比较。

为了全面了解STR领域，文章描述了与文本相关的基本问题（文本定位、确认、检测、分割、识别和端到端系统）和特殊焦点（文本增强、跟踪、NLP等）。

以及一些代表性的应用

方法

基于深度学习的方法有以下几种优点：自动（自动的特征表示学习可以使研究人员摆脱凭经验设计、手工制作）、效率（性能通常比传统算法更好）、泛化（更容易推及到类似问题）
Segmentation-based Methods: 通常包括三个步骤, 即图像预处理, 字符分割和字符识别。
Segmentation-Free Methods：识别文本整行。包含图像预处理、特征表示，字符序列建模和预测。

End-to-End Systems: 给定具有复杂背景的文本图像作为输入，端到端系统旨在直接转换所有文本成字符序列。

数据集

人工合成数据集

真实场景数据集（多为正朝向、水平的regular Latin datasets, 多为低分辨率、扭曲、弯折的irregular Latin datasets, 多语种的multilingual datasets）

评估标准（Evaluation Protocols）

Evaluation Protocols for Latin Text Recognition Protocols

Evaluation Protocols for Multilingual Text

总结/展望

泛化性
公平全面的评估标准
数据集的合理使用（合成、真实）
（复杂的）场景
更好的图像预处理
端到端系统
语种问题
安全性（一些隐私场景例如银行卡、身份证和驾驶执照等，识别方法的安全性非常重要，注意可能易受到对抗样本攻击）
NLP和STR的结合

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-05-11，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自机器学习与AI生成创作微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

概要
简介
方法
数据集
评估标准（Evaluation Protocols）
总结/展望

相关产品与服务

文字识别

文字识别（Optical Character Recognition，OCR）基于腾讯优图实验室的深度学习技术，将图片上的文字内容，智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别，也支持运单等手写体识别，支持提供定制化服务，可以有效地代替人工录入信息。

产品介绍产品文档

文字识别限时抢购，热门产品低至14.9元