前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OCR提取图片中的文字

OCR提取图片中的文字

作者头像
生信交流平台
发布2020-08-06 11:27:41
17.2K0
发布2020-08-06 11:27:41
举报

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

生活和工作中我们也经常需要从图片中提取文字信息,比如从扫描件,截图或照片中提取有用的信息。做OCR的工具也很多,很多这样的网络工具,如

FREE ONLINE OCR SERVICE

https://www.onlineocr.net/

Convertio

https://convertio.co/zh/ocr/

也有本地版的,最有名的当属tesseract-ocr

https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage

给大家举几个生活中常见的例子

1. 你找人要一个手机号,他发一张截图给你。图片发过来,你不能直接拨号,要么把手机号背下来,要么再找张纸记下来,才能拨号。那个这个时候,OCR就派上用处了。

分别用上面提到的三个工具来识别,看效果

ONLINE OCR

Convertio

tesseract-ocr

总体来说,三个方法都能识别出手机号来,但是中文的识别效率各不相同。其实这张图还是比较难的,因为文字的排布比较杂乱,给识别增添了不少麻烦。

2.你的同事设计了一个human breast cancer panel,你想把gene list拿过来参考一下,结果他发给你一张截图。虽然只有45个基因,但是要自己全部敲一遍,还是要点时间的。万一下次人家设计一个1000个基因的panel,岂不是要哭了。没关系,OCR又可以派上用场了。(当然这里最有效最保险的方法是,直接找你的同事要Excel版的gene list,如果你难以启齿或者信奉“自己动手丰衣足食”,那么接着往下看!)

ONLINE OCR

标题能完整的识别出来,有些基因被分开了,格式打乱了,整体满意度80%

Convertio

堪称完美,标题,gene名字,格式都正确,满意度100%

tesseract-ocr

标题识别有点小错误,gene名字有几个带有引号或下划线,格式基本保留,满意度90%

3.前面我们讲了百度文库免费下载,如果你还是有concern,那么其实也可以先截图再转文字。还是拿“测序名词解释”这篇文档举例,先截个长图

ONLINE OCR

整体效果还不错

Convertio

这次的效果就逊色不少了,错误很多

tesseract-ocr

准确率还行,但是文字中间都有间隔,虽然去掉也很容易(全局替换空格为空),但是用户体验就差了不少。

我相信OCR在生活中还有很多的应用,比如信件或者包裹拍照,识别邮编之后分拣,手机拍名片自动提取姓名,手机号添加到通讯录,我相信即使在微信里面发图片,敏感信息还是能被后台监测到的,OCR对腾讯来说应该是小菜一碟。这里抛砖引玉,欢迎大家列举更多应用。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信交流平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档