专栏首页量子位能直接复制图片中文字,功能远超普通OCR软件,MIT学生开发了一款强大Chrome插件

能直接复制图片中文字,功能远超普通OCR软件,MIT学生开发了一款强大Chrome插件

晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI

有时你遇到一篇古老的文献,PDF文档还是扫描版。又或者是遇到一幅网页版海报,上面的文字你完全看不懂。

但你无法把图片中的文字复制下来做进一步处理,是不是让人头大?

虽然市场上有很多OCR软件可以识别图片中的文字,但还是有种种局限性,比如无法识别文字排版,需要转成其他文件后才能处理,无法直接操作。

最近,一位来自MIT的学生Kevin Kwok解决了以上这些问题。他用计算机视觉算法写了个Chrome插件Naptha,可以直接识别网页图片中的文字,并直接对它们进行高亮、复制粘贴、翻译、修改等操作。

拾取图片中的文字

Naptha无需在电脑上安装App,直接在Chrome应用商店中搜索Project Naptha,就可以看到这款插件,一键安装后即可在Chrome浏览器中使用。

Naptha可以用于在线漫画、扫描文档,甚至连拍摄照片中的文字也能识别出来。

普通的网页文字自然不在话下:

如果是别人给你发过来的扫描文件也没关系,直接把文件拖到Chrome浏览器中(Chrome支持打开多种本地文件),Naptha就能识别。

对于照片中的图片,Naptha也能够读出。作者Kevin拍摄了一本书的封面,除了文字不清晰、竖向排列的情况,封面的书名和简介都能正常识别出来。

Naptha还支持读取表格文字,并将复制下来的文字粘贴到Excel里。

Kevin承诺,Naptha未来还会加入翻译、除去文字水印、直接在图片上修改文字等功能。这些功能目前还处在beta测试阶段,处于不稳定或者不可用状态。

不是OCR,是文本检测

光学字符识别(OCR)已经不是什么新鲜事了,虽然Naptha实现的功能看起来像OCR,但实际上它主要功能实际上是文本检测。

一般的OCR不包含语言模型,而Naptha则可以根据上下文的概率输出一系列字母。比如把一串字符判定成“hello”,而不是“he1 | o”。

OCR需要知道图片中的语言才能正确识别文本,Naptha使用的是一种称为“ 笔划宽度变换”的算法,该算法由微软研究院于2008年提出,它就像人一样,即使不知道是何种语言,也能猜到文字就在那里。

结合其他算法,如连通分量分析(识别不同的字母)、otsu阈值(确定字间距)、不相交的集合森林(识别文本行),Naptha可以非常快速地建立文本区域、单词和字母的模型,识别图中存在哪些特定字母。

通过一些基本的布局分析和文本度量,Naptha还可以找出文本的对齐参数、字体大小和字体粗细。有了这些信息,它可以在同一个地方以类似的字体重新打印文本,或者将文本改成同字体的其他文字。

传送门

博客地址: https://projectnaptha.com/

Chrome插件下载地址: https://chrome.google.com/webstore/detail/project-naptha/molncoemjfmpgdkbdlbjmhlcgniigdnf

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 变性、衰老、染发后长啥样?简易版StarGAN全知道 | 代码

    昨天,网友taki0112公布了一个简易版StarGAN TensorFlow实现,不到一天时间就在Reddit论坛上热度暴增到700。

    量子位
  • Deepfake又被玩坏了:马斯克一键变成钢铁侠,Gif表情包换脸App试一下

    量子位
  • 为了VC+AI,李开复挖来谷歌风投技术合伙人张拓木

    上个月,创新工场刚宣布完成第四期5亿美元基金募集,并表示会继续加大AI领域的投资,朝着Tech VC的航向加速。

    量子位
  • Dart 笔记 12 - 异步

    如果将其改变成一个异步函数,返回值将是一个 Future,异步函数要有 async 关键字:

    七适散人
  • ICDAR 2019论文:自然场景文字定位技术详解

    自然场景图像中的文字识别应用广泛,其中文字定位是最重要的一步,但技术上极具挑战。本文提出了一个高效的场景文本检测框架,取得了明显的效果提升。

    美团技术团队
  • Java正则表达式详解

    Java 提供了功能强大的正则表达式API,在java.util.regex 包下。本教程介绍如何使用正则表达式API。

    Java后端工程师
  • @所有人,「产业安全公开课」开课啦!

    ? 全球蔓延的疫情给企业经营带来不同程度的影响,同时也在激发产业互联网更多内在需求,线上授课、云会议、远程办公……各行各业正在加速数字化转型进程。而站在更宏观...

    腾讯安全
  • CENTOS通过iptables做端口转发

    用户2135432
  • 【LeetCode两题选手】算法类题目(7.29)

    以 Unix 风格给出一个文件的绝对路径,你需要简化它。或者换句话说,将其转换为规范路径。

    看、未来
  • 蓝灯鱼 AI 专利检索在 Milvus 的实践

    蓝灯鱼智能科技 (www.lanternfish.cn) 是一家立足于知识产权领域的人工智能公司。专利检索工具是蓝灯鱼的一款代表性产品。专利文书的语言特点包括新...

    ZILLIZ

扫码关注云+社区

领取腾讯云代金券