亚马逊的研究人员利用人工智能来提高文字识别能力

AiTechYun

发布于 2020-01-02 14:51:52

4590

发布于 2020-01-02 14:51:52

文章被收录于专栏：ATYUN订阅号ATYUN订阅号

编辑 | TGS 发布 | ATYUN订阅号

光学字符识别(OCR)，即将手写或印刷文本的图像转换成机器可读的文本，这是一门可以追溯到70年代初的科学，但长期以来，算法一直难以识别出与水平面不平行的字符，为此，亚马逊的研究人员开发了一种“文本框”——是自然图像中“弯曲”文字的探测器。

在一篇描述他们工作的论文中，合著者声称，他们的方法在一个流行OCR基准上取得了最先进的结果。论文中写道，场景文本通常分为两个连续的任务：文本检测和文本识别。第一种方法涉及使用上下文线索对字符、单词和行，进行本地化，而第二种方法则负责转录它们的内容。说起来容易做起来难，弯曲的光学文本不仅本身具有易变形的特点，还会受到视角变化和任意字体的影响。

团队的解决方案是一个文本参考框架的“tube”表示，它能捕获大部分的可变性，从中获得利用目标文本通常是相似大小字符串联这一事实。它是一个数学函数，可以训练机器学习场景文本检测器，与传统方法不同的是，它并不使用容易重叠的矩形和四边形来捕获文本信息。研究人员在CTW-1500上评估了“文本框”的性能，CTW-1500是一个数据集，由1500幅从自然场景和图像库收集的图像和10000多个文本实例组成，每个图像至少有一个弯曲的实例。

他们报告说，“文本框”在CTW-1500上获得了行业领先的结果，准确率为83.65%，而最近的相似方法准确率为75.6%。论文的合著者写道：“对一个实例的中轴和平均半径进行建模……可以获取整个实例的信息，在由单个单词组成的数据集上，比如Total-Text，我们的模型能够实现最先进的性能。在具有行级注释的数据集上，比如CTW-1500，我们的模型能够更好地捕获文本信息。”

如果未来该项研究投入实用，对严重依赖OCR开展业务的企业来说，无疑是个福音。此外，它也有可能成为进一步推进无纸化办公的急先锋。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2019-12-29，如有侵权请联系 cloudcommunity@tencent.com 删除

文字识别

本文分享自 ATYUN订阅号微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

文字识别

登录后参与评论

0 条评论

热度

亚马逊的研究人员利用人工智能来提高文字识别能力

亚马逊的研究人员利用人工智能来提高文字识别能力

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐