Zerox 是一款利用视觉模型实现 PDF 到 Markdown 转换的创新工具。它的工作原理十分巧妙,首先接收一个文件(支持多种格式,如 pdf、docx、图像等),然后将其转换为一系列图像,接着将每个图像传递给 GPT 并请求转换为 Markdown,最后汇总所有响应并返回 Markdown 格式的内容。
Zerox 的核心技术基于 GPT 模型,它将文档页面分割为图片后,利用 GPT 的自然语言处理能力识别图片中的文字内容并转换为文本,最终输出为 Markdown 格式。Zerox 的 GPT OCR 技术在文档格式转换工具中表现出色,特别是在 PDF 转换 Markdown 和 DOCX 转换 Markdown 的过程中。
功能特点
1、完全开源:Zerox 是完全开源的项目,遵循 MIT 许可证。
2、支持多种文件类型:包括 pdf、docx、doc、odt、ott、rtf、txt、html、htm、xml、wps、wpd、xls、xlsx、ods、ots、csv、tsv、ppt、pptx、odp、otp 等。
3、灵活的调用方式:提供 Node 和 Python 两种版本,可通过相应的包进行安装和使用。
4、识别手写体:手写体识别的准确率也是非常高的。
5、可以带格式输出:Zerox 具有保持格式的选项,通过将前一页的输出作为下一页的额外上下文传递,能够以一致的格式返回 Markdown,这对于包含大量表格数据或跨页表格的文档非常有价值,但会使处理速度变慢。
Zerox 可接入以下模型:
gpt-4o-mini 模型:这是 Zerox 常用的模型之一,适合一般的文档转换任务,能够较好地处理各种常见的文档格式和内容,将其准确地转换为 Markdown 格式。
gpt-4o 模型:相比 gpt-4o-mini 模型,gpt-4o 在性能和处理能力上更强大,对于一些较为复杂、内容丰富或格式特殊的文档,使用 gpt-4o 模型能够获得更准确、更优质的转换结果,但可能会消耗更多的资源和时间。
github地址:https://github.com/getomni-ai/zerox
——The End——
记得点赞、分享,让更多的朋友一起探索这个IT世界的新篇章!
AIGC周边正在发布,关注生活,冻龄青春
推荐阅读
【大模型】 浅试OpenAI免费开源通用语音识别模型 Whisper(语音识别模型)
【大模型】给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料
【NAS】Docker 配置Macvlan网络模式,实现单个容器限速与管控
【云部署】Win11+WSL2+Ubuntu+Docker-Desktop 支持GPU的深度学习环境搭建
【NAS】NAS用户必备应用,170+ 好玩的docker容器应用,好用docker新年汇总
【大模型】手把手教你在本地部署DeepSeek R1,并集成到Dify中
领取专属 10元无门槛券
私享最新 技术干货