首页
学习
活动
专区
圈层
工具
发布

#pdf

别只盯着HTML了!教你高效抓取并解析PDF/Excel隐藏附件?

jackcode

在日常的数据采集工作中,大家可能会发现一个痛点:大多数的爬虫教程只教你怎么抓取HTML页面的数据。但在实际的业务场景里,像央行年报、政府公开数据、证券交易记录以...

4310

10 分钟上手 Stirling PDF:Docker 一键部署,浏览器里编辑合并压缩加水印

轩辕镜像

想在浏览器里合并 PDF、加水印、改文字,又不想装 Adobe 或一堆桌面软件?Stirling PDF 是一款开源、可本地托管的 Web PDF 工具箱,提供...

4510

2026年PDF文本提取技术选型:自建、API与客户端方案对比

多多卡拉

PDF文本提取是自然语言处理、RAG应用和文档分析中的基础环节。本文从解析原理、性能、部署成本和适用场景四个维度,对比三类主流技术方案。PDF文本提取是自然语言...

3500

使用 C# 代码为现有 PDF 文档添加页脚

用户12401097

在 PDF 文档中添加页脚是一种常见的文档处理需求,可用于在页面底部显示额外信息,例如页码、日期、版权声明或其他说明内容。通过添加页脚,您可以提升文档的专业性和...

8710

15天学会AI应用开发(十二)从 PDF 、 WORD 、网页构建 RAG

aqi00

Python提供了多种三方库用来解析PDF文件,其中pdfplumber较常用。使用Python代码读取PDF文件内容前,要先在命令行执行下面的pip安装命令:

13210
领券