首页
学习
活动
专区
圈层
工具
发布

还在手动复制PDF内容?教你用AI,1分钟提取上千份内容到Excel!

哈喽,各位聪明的朋友们!

上期我们用AI搞定了PDF转Word,大家是不是感觉打开了新世界的大门?

别急,那只是开胃小菜!今天,我们来玩点更酷的!

想象一下这个场景:

老板甩给你几百份PDF合同/发票/报告,让你把里面的 合同号、客户名、金额 等信息整理到Excel里。

你的第一反应是不是:

“天呐!一份份打开、复制、粘贴?手都要废了!”

“一下午就干这个了?我的青春啊!”

别怕!今天,我们就让AI化身你的专属数据助理,一键批量提取PDF里的指定内容,并自动生成漂亮的Excel表格!

Step 1: 我们的“作战计划”

在召唤AI之前,我们先在脑子里过一遍要做的事,思路要清晰:

目标: 提取一个文件夹里所有PDF合同的“合同号”。

整理: 把提取到的“合同号”和对应的“文件名”写入Excel。

存放: 把生成好的Excel表保存回原来的文件夹。

思路清晰,开干!

(温馨提示:)

开始前,还是要确认电脑里有 Python环境和Pycharm编辑器 哦。

“还是不会装怎么办?”

别担心!我已经为你准备了保姆级视频教程!如下:2025最新版本,python安装教程

Step 2: 第一次召唤AI(基础版)

打开你顺手的AI大模型(通义千问、DeepSeek、chat-gpt、gemini等带深度思考的大模型都行),把我们精心准备的提示词喂给它!

提示词:

你好,请帮我用python写一个提取pdf文件内容的方法,pdf文件的语言为中文,我使用的是windows系统,方法要求如下:

1. 读取 G:\pdf\合同 路径中的所有pdf文件。

2. 提取文件中的合同号,需要提取内容的格式如下:“合同号:20250521001”。

3. 把pdf名称和合同号写入到一个excel表中,并保存到 G:\pdf\合同\合同号.xlsx。

4. excel表的格式为如下: | 文件名 | 合同号 | | 销售合同1 | 20250521001 |

【 提示词小贴士】

这里有两个细节是成功的关键:

pdf文件的语言为中文:告诉AI文件是中文的,避免它用错编码导致提取出来一堆乱码。

内容的格式如下:“合同号:20250521001”:给AI一个清晰的“范例”,它才能精准定位并抓取你需要的信息!

把提示词发给AI,别忘了打开“深度思考”模式哦!

Step 3: 准备并运行

AI生成代码后,老样子,先看顶部的说明,安装它需要的“依赖库”(也就是魔法杖)。

安装命令

pip install pdfplumber pandas openpyxl

复制这行命令,在Pycharm底部的“Terminal (终端)”窗口粘贴并回车,让它自动安装。

( 如果你之前运行过类似代码,这些库可能已经装好了,可以直接跳过这一步!)

依赖库安装

开始施法:

在Pycharm里新建一个Python文件(比如叫 getPdfContent.py)。

把AI生成的 完整代码 复制进去。

最重要的一步! 把代码里的路径 G:\pdf\合同 修改成 你自己的PDF文件夹路径

点击运行按钮 ▶️!

代码运行

看!一个名为“合同号.xlsx”的文件是不是出现了?打开看看,所有合同号是不是都乖乖躺在里面了?

运行结果

Step 4: AI能力升级!(进阶版)

太棒了!但……如果我还想提取“收购方”和“合同有效期”呢?

别慌!我们不需要自己改代码,继续跟AI对话就行!

这次,我们的提示词要升级了:

(建议此处用公众号的“代码”或“引用”卡片样式)

提示词

你好,再帮我修改一下代码,除了提取合同号之外,还需要做以下操作:

1. 提取文件中的收购方,内容的格式如下:收购方:公司十(以下简称“乙方”)

2. 提取文件中的合同有效期限,内容的格式如下:本合同有效期限:2025年05月21日起至2026年05月20日

3. 把对应的pdf的文件路径以超链接的方式写入表格中。

4. 表格名称为合同信息.xlsx,格式如下: | 文件名 | 收购方 | 合同号 | 有效期限 | 路径 | | 销售合同1 | 公司二 | 20250521001 | ... | G:\... |

5. 返回完整的代码。

【 提示词究极贴士】

返回完整的代码:这句话一定要加!不然AI可能偷懒,只给你修改或新增的部分代码。加上这句话,它就会把所有代码重新整合好,给你一个可以直接运行的完整版,对我们零基础小白超级友好!

Step 5: 见证最终奇迹!

把新的提示词发给AI。等它生成后,用这份 全新的、更强大的代码,替换掉Pycharm里原来的旧代码。

再次点击运行按钮 ▶️!

运行结果

打开新生成的“合同信息.xlsx”,你会发现:

所有信息(文件名、收购方、合同号、有效期)都整整齐齐!

路径那一列还是超链接,点击就能直接打开对应的PDF原文件!

怎么样?是不是感觉自己像个能驯服AI的魔法师?

总结一下

从今天起,你已经掌握了让AI为你定制化提取信息的能力!这不仅仅是提取合同,你可以用同样的方法提取发票信息、论文摘要、简历关键点……任何有固定格式的文本,AI都能帮你搞定!

觉得这篇文章对你有亿点点用?

那就快给我一个 【点赞】【收藏】,再 【分享】 给你的同事和朋友,让他们也从重复劳动中解放出来吧!

关注我,我们一起用AI+Python解决实际问题!

你在工作学习中,还有什么特别想自动化的繁琐任务吗?

在评论区告诉我,我们一起研究怎么用AI搞定它!

我们下期见!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OXZLN8ocbPsN2t3XhIjsJCHg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券