首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用python从pdf中提取单个行表数据?

如何使用python从pdf中提取单个行表数据?
EN

Stack Overflow用户
提问于 2022-11-22 13:28:29
回答 1查看 42关注 0票数 -1

我需要从pdfs中提取表格数据。pdf中的一些表只包含一行。我一直在尝试使用camelot库提取数据。

使用Camelot提取代码:

代码语言:javascript
运行
复制
pip install camelot-py[cv] tabula-py here
import camelot
file = 'xyz.pdf'
tables = camelot.read_pdf(file,pages ="all")
tables[6].df 

以上代码无法提取单个行表信息。

例如,在pdf:https://www.nirfindia.org/nirfpdfcdn/2022/pdf/Engineering/IR-E-U-0306.pdf中,该工具无法检测到最后一个表格(在标题“教师详细信息”下),因为它只有一行。

有人能提出解决办法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-11-24 09:47:13

文档中可以了解到,如果要检测较小的行,应该增加line_scale参数(默认值: 15)。

在您的示例中,此命令运行良好:

代码语言:javascript
运行
复制
tables = camelot.read_pdf(file, pages ="all", line_scale=80)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74533410

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档