哈喽,各位聪明的朋友们!
上期我们用AI搞定了PDF转Word,大家是不是感觉打开了新世界的大门?
别急,那只是开胃小菜!今天,我们来玩点更酷的!
想象一下这个场景:
老板甩给你几百份PDF合同/发票/报告,让你把里面的 合同号、客户名、金额 等信息整理到Excel里。
你的第一反应是不是:
“天呐!一份份打开、复制、粘贴?手都要废了!”
“一下午就干这个了?我的青春啊!”
别怕!今天,我们就让AI化身你的专属数据助理,一键批量提取PDF里的指定内容,并自动生成漂亮的Excel表格!
Step 1: 我们的“作战计划”
在召唤AI之前,我们先在脑子里过一遍要做的事,思路要清晰:
目标: 提取一个文件夹里所有PDF合同的“合同号”。
整理: 把提取到的“合同号”和对应的“文件名”写入Excel。
存放: 把生成好的Excel表保存回原来的文件夹。
思路清晰,开干!
(温馨提示:)
开始前,还是要确认电脑里有 Python环境和Pycharm编辑器 哦。
“还是不会装怎么办?”
别担心!我已经为你准备了保姆级视频教程!如下:2025最新版本,python安装教程
Step 2: 第一次召唤AI(基础版)
打开你顺手的AI大模型(通义千问、DeepSeek、chat-gpt、gemini等带深度思考的大模型都行),把我们精心准备的提示词喂给它!
提示词:
你好,请帮我用python写一个提取pdf文件内容的方法,pdf文件的语言为中文,我使用的是windows系统,方法要求如下:
1. 读取 G:\pdf\合同 路径中的所有pdf文件。
2. 提取文件中的合同号,需要提取内容的格式如下:“合同号:20250521001”。
3. 把pdf名称和合同号写入到一个excel表中,并保存到 G:\pdf\合同\合同号.xlsx。
4. excel表的格式为如下: | 文件名 | 合同号 | | 销售合同1 | 20250521001 |
【 提示词小贴士】
这里有两个细节是成功的关键:
pdf文件的语言为中文:告诉AI文件是中文的,避免它用错编码导致提取出来一堆乱码。
内容的格式如下:“合同号:20250521001”:给AI一个清晰的“范例”,它才能精准定位并抓取你需要的信息!
把提示词发给AI,别忘了打开“深度思考”模式哦!
Step 3: 准备并运行
AI生成代码后,老样子,先看顶部的说明,安装它需要的“依赖库”(也就是魔法杖)。
安装命令
pip install pdfplumber pandas openpyxl
复制这行命令,在Pycharm底部的“Terminal (终端)”窗口粘贴并回车,让它自动安装。
( 如果你之前运行过类似代码,这些库可能已经装好了,可以直接跳过这一步!)
依赖库安装
开始施法:
在Pycharm里新建一个Python文件(比如叫 getPdfContent.py)。
把AI生成的 完整代码 复制进去。
最重要的一步! 把代码里的路径 G:\pdf\合同 修改成 你自己的PDF文件夹路径!
点击运行按钮 ▶️!
代码运行
看!一个名为“合同号.xlsx”的文件是不是出现了?打开看看,所有合同号是不是都乖乖躺在里面了?
运行结果
Step 4: AI能力升级!(进阶版)
太棒了!但……如果我还想提取“收购方”和“合同有效期”呢?
别慌!我们不需要自己改代码,继续跟AI对话就行!
这次,我们的提示词要升级了:
(建议此处用公众号的“代码”或“引用”卡片样式)
提示词
你好,再帮我修改一下代码,除了提取合同号之外,还需要做以下操作:
1. 提取文件中的收购方,内容的格式如下:收购方:公司十(以下简称“乙方”)
2. 提取文件中的合同有效期限,内容的格式如下:本合同有效期限:2025年05月21日起至2026年05月20日
3. 把对应的pdf的文件路径以超链接的方式写入表格中。
4. 表格名称为合同信息.xlsx,格式如下: | 文件名 | 收购方 | 合同号 | 有效期限 | 路径 | | 销售合同1 | 公司二 | 20250521001 | ... | G:\... |
5. 返回完整的代码。
【 提示词究极贴士】
返回完整的代码:这句话一定要加!不然AI可能偷懒,只给你修改或新增的部分代码。加上这句话,它就会把所有代码重新整合好,给你一个可以直接运行的完整版,对我们零基础小白超级友好!
Step 5: 见证最终奇迹!
把新的提示词发给AI。等它生成后,用这份 全新的、更强大的代码,替换掉Pycharm里原来的旧代码。
再次点击运行按钮 ▶️!
运行结果
打开新生成的“合同信息.xlsx”,你会发现:
所有信息(文件名、收购方、合同号、有效期)都整整齐齐!
路径那一列还是超链接,点击就能直接打开对应的PDF原文件!
怎么样?是不是感觉自己像个能驯服AI的魔法师?
总结一下
从今天起,你已经掌握了让AI为你定制化提取信息的能力!这不仅仅是提取合同,你可以用同样的方法提取发票信息、论文摘要、简历关键点……任何有固定格式的文本,AI都能帮你搞定!
觉得这篇文章对你有亿点点用?
那就快给我一个 【点赞】 和 【收藏】,再 【分享】 给你的同事和朋友,让他们也从重复劳动中解放出来吧!
关注我,我们一起用AI+Python解决实际问题!
你在工作学习中,还有什么特别想自动化的繁琐任务吗?
在评论区告诉我,我们一起研究怎么用AI搞定它!
我们下期见!