首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

高质量PDF内容提取的综合工具包,适用于学术论文、教科书、研究报告和财务报表等,即使在扫描模糊或有水印的情况下也能保持高鲁棒性

PDF-Extract-Kit

高质量PDF内容提取的综合工具包,集成多种模型实现PDF布局检测、公式检测与识别、光学字符识别,适用于学术论文、教科书、研究报告和财务报表等多种文档类型,即使在扫描模糊或有水印的情况下也能保持高鲁棒性

Github地址

整体介绍

PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。为此,我们将PDF内容提取工作进行拆解:

• 布局检测:使用LayoutLMv3模型进行区域检测,如图像,表格,标题,文本等;

• 公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;

• 公式识别:使用UniMERNet进行公式识别;

• 光学字符识别:使用PaddleOCR进行文本识别;

注意:由于文档类型的多样性,现有开源的布局检测和公式检测很难处理多样性的PDF文档,为此我们内容采集多样性数据进行标注和训练,使得在各类文档上取得精准的检测效果,细节参考布局检测[5]和公式检测[6]部分。对于公式识别,UniMERNet方法可以媲美商业软件,在各种类型公式识别上均匀很高的质量。对于OCR,我们采用PaddleOCR,对中英文OCR效果不错。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O4GWk7Fe2T1xxigPR5iuq-7Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券