前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >我不信,这个项目 OCR 识别准确率居然能这么高!

我不信,这个项目 OCR 识别准确率居然能这么高!

作者头像
永恒君
发布2022-12-07 17:24:41
2K0
发布2022-12-07 17:24:41
举报
文章被收录于专栏:开源小分队开源小分队

大家好,我是爱撸码的开源大叔!

如果你经常使用某些 OCR API,肯定受够了调用次数限制问题。

那么,今天大叔给大家分享一个开源的 OCR 识别库:Tesseract.js

简介

Tesseract.js是基于Tesseract的一个纯 Javascript 编程语言的 ocr 识别库,简单实用。支持包括中英文等100多种语言(包括中文)的图片和视频文字识别,自动文本方向和脚本检测,用于读取段落,单词和字符边界框的简单界面,底层封装了Tesseract OCR引擎来实现。

Tesseract 从4.0版本之后增加了基于 LSTM 神经网络的识别引擎,可以通过训练出自己的词库,让识别的准确率接近100%!

这意味着,Tesseract.js同样能够继承如此牛逼的、接近100%的、超高准确率。目前 Github 上收获28.6k+ star

效果展示

图片识别 :

视频实时识别

安装

Tesseract.js可以在浏览器和具有 Node.js 服务器上安装使用。

在浏览器中,可以直接在 html 页面上通过 script 标签引入CDN 外链使用:

在 Node.js 中则输入如下代码:

注:Tesseract.js v3 要求 Node.js 的版本在 v14 及以上才行。

使用

一旦安装完成,就可以非常轻松的使用了

或者更加命令式编程的方式。

使用这种方式的好处就是可以自定义构建一个 worker,实现一些诸如如语言配置、训练数据词库等等的简单配置。

官方还给出了10种使用方式,你可以用在你任何想使用的地方。

关于项目的更多细节、功能,感兴趣的小伙伴可以去项目地址探索~~~

官网地址 https://tesseract.projectnaptha.com
github地址 https://github.com/naptha/tesseract.js
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源小分队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 效果展示
  • 安装
  • 使用
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档