首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

marker——快速精准的将PDF转Markdown

有些时候,我们需要将 PDF 转换成 Markdown 格式,但是通常情况下是无法直接转的。一般来说,我们需要先将 PDF 文档先 OCR 识别一下,然后再转换成 markdown。需要注意的是,由于 PDF 格式的复杂性和多样性,有一些特殊的符号以及公式 往往在处理的时候会出问题。

今天要介绍的项目是 marker,就可以很好的解决这个问题,marker 是一款基于深度学习模型的将 PDF 转换成 Markdown 格式的工具。官方 github 地址如下:https://github.com/VikParuchuri/marker 。目前已经拥有 9.2k star。

marker 的原理是利于深度学习模型,检测页面布局,阅读顺序,然后格式化文本块并且对完整的文本再进行处理。这里说一下 marker 的特点:

该工具支持广泛的文档类型,特别针对书籍和科学论文进行了优化,对于复杂的公式提供了更好的支持。同时,它支持多种语言的转换,确保在全球范围内的用户都能够轻松使用

可以删除页眉、页脚以及其他页面元素。

能够格式化表格和代码块,保持排版整齐。

可以提取并保存 PDF 中的图像。

支持 GPU、CPU 或者 MPS(多处理器系统)进行转换,以满足不同硬件环境下的需求。这里说来说一下 marker 的安装方法

安装 Python,需要注意的需要安装的 Python 版本必须大于等于 3.9

然后安装 Pytorch ,执行命令 pip3 install torch torchvision

然后安装 marker 。执行命令 pip3 install marker-pdf

更详细的使用文档,可以参考 github 上的文档:https://github.com/VikParuchuri/marker?tab=readme-ov-file 。另外文档上也提供了 marker 和 nougat 的对比测试结果 。如下图

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQK1M9x7apwDpsl6T2Eir4BQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券