这次要推荐的是一款可以纯离线使用,无需担心隐私泄露的开源OCR软件,开源项目已经快到5k star的项目,名称叫“Umi-OCR”,OCR图片转文字识别软件,完全离线。截屏/批量导入图片,支持多国语言、合并段落、竖排文字。可排除水印区域,提取干净的文本,基于 PaddleOCR 。
此款软件本人已经使用将近3周,识别速度确实快,关键是个开源项目,不存在需要上传图片上云再识别,即便在不联网的情况也能使用(亲测断网也能正常识别),数据完全在本地处理,针对一些在断网开发不允许连接外网的小伙伴是一个不错的选择,比如经常给图片,需要挨个敲字确实麻烦,有了这款工具就可以大大减少手敲时间,支持批量和定时处理,因此推荐给大家,可能唯一不足的是仅有Windows端可以使用,若你也有此类好用的软件可以评论区留言~
目前已实现的功能:
不显示主窗口
。合并自然段-西文模式
,可在英文段落换行时补充空格。自动清空面板
,只显示本次识别结果,且隐藏时间信息。Github官方开源下载地址:点此下载
官方蓝奏网盘分享下载地址:点此下载
个人防和谐蓝奏网盘分享地址:点此下载
使用源代码自己构建可以点此访问Github项目地址详细说明
下载压缩包并解压全部文件即可。
点击截图按钮或自定义快捷键,唤起截图识别。
在任何地方(如文件管理器,网页,微信)复制图片,软件上点击粘贴按钮,自动识别。
将图片或文件夹拖进软件,批量转换文字。也可以点击按钮打开浏览窗口导入。
识别结果将保存到本地。可选生成纯文本txt文件、带链接Markdown文件、原始信息jsonl文件等不同格式。可配置任务完成后执行关机/待机。
测试机器:
CPU | TDP | RAM | 是否兼容mkldnn |
---|---|---|---|
r5 4600u | 15w | 16g | 无报错 |
测试集:
图片张数 | 测试条件 | 分辨率 | 平均字块数量 | 平均字符数量 | 文字语言 |
---|---|---|---|---|---|
100 | 环境相同,多次测量取平均值 | 1920x1080 | 15 | 250 | 简体中文 |
测试结果:
Umi-OCR版本 | 1.2.5 | 1.2.5 | 1.2.6 | 1.2.6 | 1.2.6 | 1.2.6 |
---|---|---|---|---|---|---|
PaddleOCR-json版本 | 1.1.1 | 1.1.1 | 1.2.0 | 1.2.0 | 1.2.0 | 1.2.0 |
PP-OCR C++版本 | 2.1 | 2.1 | 2.6 | 2.6 | 2.6 | 2.6 |
是否开启mkldnn | ✅ | ✅ | ✅ | ✅ | ||
PP-OCR模型库版本 | v2 | v2 | v2 | v3 | v3 slim | v3 |
总耗时(秒) | 90 | 120 | 65 | 63 | 170 | 400 |
平均单张耗时(秒) | 0.9 | 1.2 | 0.65 | 0.63 | 1.7 | 4.0 |
内存占用峰值(MB) | 1000 | 350 | 1200 | 1700 | 5800 | 500 |
结论:
v1.2.6
及之后的版本,比前代的效率具有显著优势。新版调教倾向于榨干硬件的性能,内存占用高于旧版。v1.2.5
的旧版本Umi-OCR。文章目录
function Catalogswith(){document.getElementById("catalog-col").classList.toggle("catalog");document.getElementById("catalog").classList.toggle("catalog")}