前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >亚马逊的研究人员利用人工智能来提高文字识别能力

亚马逊的研究人员利用人工智能来提高文字识别能力

作者头像
AiTechYun
发布2020-01-02 14:51:52
4590
发布2020-01-02 14:51:52
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号
编辑 | TGS 发布 | ATYUN订阅号

光学字符识别(OCR),即将手写或印刷文本的图像转换成机器可读的文本,这是一门可以追溯到70年代初的科学,但长期以来,算法一直难以识别出与水平面不平行的字符,为此,亚马逊的研究人员开发了一种“文本框”——是自然图像中“弯曲”文字的探测器。

在一篇描述他们工作的论文中,合著者声称,他们的方法在一个流行OCR基准上取得了最先进的结果。论文中写道,场景文本通常分为两个连续的任务:文本检测和文本识别。第一种方法涉及使用上下文线索对字符、单词和行,进行本地化,而第二种方法则负责转录它们的内容。说起来容易做起来难,弯曲的光学文本不仅本身具有易变形的特点,还会受到视角变化和任意字体的影响。

团队的解决方案是一个文本参考框架的“tube”表示,它能捕获大部分的可变性,从中获得利用目标文本通常是相似大小字符串联这一事实。它是一个数学函数,可以训练机器学习场景文本检测器,与传统方法不同的是,它并不使用容易重叠的矩形和四边形来捕获文本信息。研究人员在CTW-1500上评估了“文本框”的性能,CTW-1500是一个数据集,由1500幅从自然场景和图像库收集的图像和10000多个文本实例组成,每个图像至少有一个弯曲的实例。

他们报告说,“文本框”在CTW-1500上获得了行业领先的结果,准确率为83.65%,而最近的相似方法准确率为75.6%。论文的合著者写道:“对一个实例的中轴和平均半径进行建模……可以获取整个实例的信息,在由单个单词组成的数据集上,比如Total-Text,我们的模型能够实现最先进的性能。在具有行级注释的数据集上,比如CTW-1500,我们的模型能够更好地捕获文本信息。”

如果未来该项研究投入实用,对严重依赖OCR开展业务的企业来说,无疑是个福音。此外,它也有可能成为进一步推进无纸化办公的急先锋。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档