前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【技能分享】一行代码从PDF中提取表格

【技能分享】一行代码从PDF中提取表格

作者头像
数据处理与分析
发布2021-11-30 13:28:19
1.2K0
发布2021-11-30 13:28:19
举报
文章被收录于专栏:数据处理与分析

需求

我在技术交流群里发了这样一个PDF,并说了明天公布答案。

PDF里有很多有用的信息,这些信息都不怎么好直接拿来用。今天我就来分享一下怎么提取出这个PDF中的表格。

开搞

提取这个信息其实很简单,只需按照下图所示的代码就可以提取出里面的信息并存盘。

附上图中代码

代码语言:javascript
复制
import tabula
#读取pdf数据,并取pdf中的第一个表格
df = tabula.read_pdf(r'C:\Users\uYaoQi\Desktop\tst.pdf',pages='all')[0]
#不带索引写出表格到磁盘
df.to_excel(r'C:\Users\uYaoQi\Desktop\tst.xlsx',index=None)

几行代码,简简单单!

写出的数据:

总结

提取过程没什么好说的,非常的简单!

只能说tabula这个库太强大了,这个需求如果用FME来做的话,也不是不行,只是不会有这么方便。

也许还有其他的方式来做类似的事情,但大概也不能比这个库更简单了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据处理与分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 需求
  • 开搞
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档