让机器阅读图片上的文字,总共分几步?

拍照搜题、名片信息自动归类,这些神奇功能是如何完成的?

除了提取图片中的文字,OCR 还能做什么?

点击下方视频,你对人工智能的了解就能轻松超过全世界 99% 的人类!

图文版本送给不方便打开的朋友 (°u°)」

拍下快递单就能自动填充单号,拍下名片信息就能自动归类,拍下题目就能得到答案,这些方便的功能,都是 OCR 的功劳。

OCR(Optical Character Recognition)中文名叫「光学字符识别」,是指将带有文字的图像进行分析处理,获取其中的文字信息。对于机器来说图片只是一连串像素值,正是 OCR 给了机器阅读文字的能力。

想要识别图片中的文字,总共分几步?

首先是找到图片中文字的位置校正文字的方向,再对图片进行二值化处理切割并识别它们。对于得到的文字,有时还要进行语义纠错,才能输出最后的结果。

在提取图片中的文字信息之外,OCR 能帮我们完成许多更有趣的应用。

与机器翻译、 AR 相结合,就能实时将摄像头拍摄到的文字,翻译成你能读懂的语言;

整理购物小票太繁琐?拍下照片机器就能将它们整理归类,自动记账

不仅如此,理解图片中的文字还能提升图像识别的准确率,像是商品包装上的文字就能为商品细粒度识别提供不少帮助。

不过手写文字、多语言混合文本、混合排列文本,仍是 OCR 需要解决的难题。

下一期我们将围绕人体姿态识别展开讨论,敬请期待!

「知智一分钟」是由「KnowingAI知智」推出的,以人工智能基础知识为主的短视频栏目。

每次一分钟,轻松了解 AI 领域基础概念!

「知智一分钟」现已入驻 B 站,

欢迎投硬币投香蕉发弹幕吐槽我们!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180713A1R52O00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励