文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用python从pdf中提取单个行表数据？

问如何使用python从pdf中提取单个行表数据？
EN

Stack Overflow用户

提问于 2022-11-22 13:28:29

回答 1查看 42关注 0票数 -1

我需要从pdfs中提取表格数据。pdf中的一些表只包含一行。我一直在尝试使用camelot库提取数据。

使用Camelot提取代码：

pip install camelot-py[cv] tabula-py here
import camelot
file = 'xyz.pdf'
tables = camelot.read_pdf(file,pages ="all")
tables[6].df

以上代码无法提取单个行表信息。

例如，在pdf：https://www.nirfindia.org/nirfpdfcdn/2022/pdf/Engineering/IR-E-U-0306.pdf中，该工具无法检测到最后一个表格(在标题“教师详细信息”下)，因为它只有一行。

有人能提出解决办法吗？

python

pdf

ocr

python-camelot

tabula-py

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-11-24 09:47:13

从文档中可以了解到，如果要检测较小的行，应该增加line_scale参数(默认值: 15)。

在您的示例中，此命令运行良好：

tables = camelot.read_pdf(file, pages ="all", line_scale=80)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74533410

复制

相似问题

问如何使用python从pdf中提取单个行表数据？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python从pdf中提取单个行表数据？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python从pdf中提取单个行表数据？
EN