前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >训练文本识别器,你可能需要这些数据集

训练文本识别器,你可能需要这些数据集

作者头像
云水木石
发布2019-07-01 14:51:27
4.2K0
发布2019-07-01 14:51:27
举报

我们知道,监督式深度学习非常依赖于带标签的数据集,通常数据集越大,训练出的模型效果越好,对于文本检测和识别也是如此,为了训练出好的模型,我们需要大型数据集。然而,为了收集真实世界的带标签的图片数据集非常难,为图片做标注非常耗时,代价昂贵,个人和小型企业无法承担。得益于互联网的开放性,我们可以得到许多大的公司和研究机构标注好的数据集,下面就简单汇总一下在文本检测和识别领域有哪些开放数据集。

ICDAR 2003

ICDAR 2003 包含251个水平文字的完整场景图像和860张有单词被裁剪的图像。

2011年删除了包含非字母和数字字符以及少于三个字符的图片,并为每个图片定义了50个字的词典,此外还有一个50k的词汇表,它由Hunspell拼写检查词典中的所有词汇组成。

下载地址:http://www.imglab.org/db/files/ICDAR2003-SceneTrialTrain-GT4.tar.gz

ICDAR 2015 FST或ICDAR 2013

ICDAR 2015 FST或ICDAR 2013 包含聚焦场景文本的229个训练图像和233个测试图像。它继承了ICDAR 2003数据集的大部分样本。他们都是真实世界的图像,显示标志牌、书籍、海报或其他物品上的文字(图A.1)。文字都是英文的且水平对齐。标注是轴对齐的边界框,共划分出1015个裁剪的单词图像。该数据集被广泛用于测试文本探测器的性能,通常被称为ICDAR 2013。

图A.1:来自ICDAR 2013 / ICDAR 2015聚焦场景文本的示例图像数据集。所有图像都具有轴对齐的边界框标注。

下载地址:http://rrc.cvc.uab.es/?ch=2&com=downloads

ICDAR 2015 IST

ICDAR 2015 IST包含1,000个训练图像和500个测试图像。这些图像是使用谷歌眼镜获得的,没有考虑视角、位置或图像质量。文本实显示方向随意、也可能尺寸很小或低分辨率(图A.2),使其比ICDAR 2013更加难以识别。完整的数据集有7,548个带有四边形形式标注的文本实例。它通常用于基准测试,现在称作ICDAR 2015。

图A.2:来自ICDAR 2015附带场景文本数据集的示例图像。边界框注释以四边形的形式提供,大部分文本实例处于透视扭曲、模糊或不利照明条件。

下载地址:http://rrc.cvc.uab.es/?ch=4&com=downloads

ICDAR 2017 MLT

ICDAR 2017 MLT5旨在对多语言场景下的文本检测和识别任务进行基准测试。它包含7,200个训练自然场景图像、1,800个验证自然场景图像和9,000个测试自然场景图像,包含6种不同语言的文本(拉丁语、阿拉伯语、孟加拉语、韩语、平假名、片假名和符号)。标注以四边形、语言类别和转录(UTF-8文本)的形式提供。

下载地址:http://rrc.cvc.uab.es/?ch=8&com=downloads

COCO-Text

COCO-Text是通过注释来自MS的COCO数据集中的图像而创建的。它包含63,686个图像(图A.3),带有173,589个标注过的文本区域,因此比其他场景文本数据集大两个数量级。每个文本实例都使用轴对齐的边界框和三个属性进行标记:机器打印或手写文本、清晰或难以辨认的文本以及英语或非英文字母。对于清晰的文本,给出了转录。作者选择了20,000个样本作为验证/测试集,其余样本用于训练。

COCO-Text是比ICDAR 2015 IST更具挑战性的数据集。

图A.3:来自COCO-Text数据集的示例图像。图像并不是特意为文本而选择,轴对齐的边界框也不是弯曲或方向文本的最佳选择。

下载地址:https://vision.cornell.edu/se3/coco-text

Synthetic Word

Synthetic Word是一个涵盖9万个英文单词的包含9百万个合成单词图像的数据集。每个单词的字体是从1,400种不同的字体类型中随机选择的,边框/阴影宽度随机选取。基本颜色选自在自然图像上通过K均值聚类获得的颜色样本,从ICDAR 2003训练数据集中随机采样的图像块作为背景。透视变换用于模拟投影失真。噪音和模糊效果以及添加了JPEG压缩损伤使得图像更逼真。所有图像具有32像素的固定高度,宽度不定。

下载地址:http://www.robots.ox.ac.uk/~vgg/data/text

SynthText

SynthText包含使用合成文本引擎生成的800k个训练图像。它们是通过将自然图像与人工渲染的文本混合而合成的。随机字体类型、大小和颜色的文本放置在具有均匀颜色和纹理的区域,且考虑到了3D场景。每个图像都有大约十个单词实例,标注有方向字符、单词边界框以及转录。示例图像见图A.4。

图A.4:来自SynthText数据集的示例图像。文本实例和定向边界框形式的标注,由合成文本引擎生成

下载地址:http://www.robots.ox.ac.uk/~vgg/data/scenetext

MSRA-TD500

MSRA-TD500是第一个聚焦于方向文本的热门数据集。它包含500个高分辨率自然图像,300个用于训练,200个用于测试。它们是用袖珍相机取自室内(办公室和商场)和室外(街头)场景。文本实例有中文,也有英文,并标注为行对齐的旋转边界框。 和ICDAR 2003、MSRA-TD500相比,更具挑战性,因为文本的变化更大,背景更复杂。

下载地址:http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500)

谷歌FSNS

谷歌FSNS由超过一百万张从谷歌街景图像中裁剪出法国街道名称标识的图像组成。每个图像包含同一街道名称标志的四个视图,并用会出现在地图上的真实文本进行标注。每个名称标识的文本实例可以跨越最多三行,可能会出现模糊、遮挡或低分辨率。

下载地址:http://rrc.cvc.uab.es/?ch=6&com=downloads

SVT

SVT表示街景文本(Street View Text)。该数据集有从谷歌街景收集的包含647个单词实例的249个图像。图像可能会分辨率较低以及光照不足。每个图像都相关联着由Wang等人定义的50字词汇。

下载地址:http://www.iapr-tc11.org/mediawiki/index.php/The_Street_View_Text_Dataset

CUTE80

CUTE80旨在评估弯曲文本识别的性能。它包含80个带有弯曲文本的自然图像,共有288个单词。

下载地址:http://cs-chan.com/downloads_CUTE80_dataset.html

IIIT 5k-word

IIIT 5k-word由谷歌图片搜索获得的5千个包含单词的图像组成。它们是通过查询广告牌、招牌、门牌号码,房子铭牌或电影海报等字样获得的。数据集被拆分为2千个训练图像和3千个测试图像。每个样本都带有真实文本、字符级的边界框、简单或难两种分类,以及一个50字、一个1k字的两个词汇表。此外,还提供500k个总体词汇表。

下载地址:http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云水木石 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ICDAR 2003
  • ICDAR 2015 FST或ICDAR 2013
  • ICDAR 2015 IST
  • ICDAR 2017 MLT
  • COCO-Text
  • Synthetic Word
  • SynthText
  • MSRA-TD500
  • 谷歌FSNS
  • SVT
  • CUTE80
    • IIIT 5k-word
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档