前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >10K Star 强烈种草!超强开源OCR工具:Surya!表识别功能太强了!支持90+语言识别!

10K Star 强烈种草!超强开源OCR工具:Surya!表识别功能太强了!支持90+语言识别!

作者头像
Python兴趣圈
发布于 2024-10-10 11:20:12
发布于 2024-10-10 11:20:12
2.4K00
代码可运行
举报
文章被收录于专栏:翩翩白衣少年翩翩白衣少年
运行总次数:0
代码可运行

兄弟们,又种草了一款超强OCR神器!它叫做 Surya,一款开源的OCR工具,性能炸裂,更新了 表格识别功能,它不仅能识别表格的行、列、单元格,还能识别旋转的表格和复杂的布局,而且支持90多种语言,简直无敌。

Surya 它通过先进的架构,尤其是在表格识别方面,性能优于当前的SoTA开源模型 Table Transformer。目前GitHub上收藏人数超过1万(10K),不仅免费开源,还能应用于商业场景。

核心功能

1、表格识别

Surya 的新版本特别强化了 表格识别,能清晰地识别出表格中的行、列和单元格,同时还能识别出具体的字符内容。

这个功能对于需要处理大量表格数据的同学来说无疑是一大福音。

2、复杂布局识别

它不仅限于表格,还可以识别文档中的复杂布局,比如标题、图片,甚至是旋转的表格。这意味着无论你的文档是多复杂,Surya 都能准确提取出你需要的信息。

3、支持90多种语言

支持全球超过90种语言的OCR识别,包括中文、日文、韩文、阿拉伯文等。

这个多语言支持,使它能够轻松应对各种不同语言的文档,无论是国际业务的文件处理,还是本地化项目的内容转换,Surya 都能游刃有余。

4、高效的文本识别与阅读顺序确定

除了表格,Surya 还擅长文本的行级检测,并能正确识别文本的阅读顺序,避免文档信息混乱,确保文本内容能够按正确的顺序输出。

5、本地运行和API支持

Surya 还有一个亮点是它能够在本地运行,方便开发者离线处理敏感信息,或者大规模处理文档。同时,Surya 还提供了API接口,开发者可以很轻松地将其集成到自己的应用中,进行批量自动化处理。

Surya 的优势

  • 性能:相比于市面上其他OCR工具,Surya 使用了新的模型架构,大幅提升了识别精度和速度,尤其在表格识别方面,表现远超目前的 SoTA(State of the Art)模型。无论是文字还是表格的处理,性能都非常出色。
  • 可商用:完全开源且允许商业用途的。这意味着你不仅可以在个人项目中使用,还可以将其集成到商业应用中,充分发挥它的潜力。
  • 跨平台支持:无论你使用的是 Windows、Mac 还是 Linux 系统,Surya 都能完美运行,而且支持本地部署,非常适合需要离线处理文档的企业或个人。
  • 社区支持与活跃开发:Surya 的开发者团队非常活跃,更新频繁,而且还有一个活跃的社区支持。如果你在使用过程中遇到问题,可以通过 Discord 社区及时与开发者交流。

如何安装 Surya?

1、MacOS 用户

可以通过 Homebrew 轻松安装:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
  brew install surya

2、Docker 安装

使用 Docker 镜像运行 Surya:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
   docker pull vikparuchuri/surya
   docker run -v ${path_to_host_folder_to_scan}:/path vikparuchuri/surya:latest [COMMAND] [OPTIONS] [SOURCE_PATH]

3、源码安装

从 GitHub 克隆项目并自行编译:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone https://github.com/VikParuchuri/surya.git
cd surya
make build

结语

Surya 不仅仅是一款OCR工具,它还具备了处理复杂表格、图片和文本布局的能力,特别是它在表格识别上的表现,远超当前的主流开源工具。

如果你正在处理包含复杂表格和多语言内容的文档,那么 Surya 绝对是你不可错过的工具。

GitHub 地址:https://github.com/VikParuchuri/surya

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python兴趣圈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验