首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >利用Tabula从PDF中提取表

利用Tabula从PDF中提取表
EN

Stack Overflow用户
提问于 2017-03-01 17:32:27
回答 4查看 30.4K关注 0票数 2

我偶然发现了一个叫做Tabula的大图书馆,它差一点就成功了。不幸的是,在第一页上有很多无用的区域,我不想让Tabula提取。根据文档,您可以指定要从中提取的页面区域。然而,无用的区域只是在我的PDF文件的第一页,因此,对于所有后续的页面,Tabula将错过顶部部分。是否有方法指定区域条件仅适用于PDF的第一页?

代码语言:javascript
运行
复制
from tabula import read_pdf

df = read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", area=(530,12.75,790.5,561), pages='all')
EN

回答 4

Stack Overflow用户

发布于 2017-05-21 16:10:35

我正在尝试做一些类似的事情(解析银行对账单),并且有同样的问题。到目前为止,我发现解决这个问题的唯一方法是分别解析每个页面。

唯一的问题是,这需要事先知道您的文件由多少页组成。目前我还没有找到如何直接使用Tabula来完成这个任务,所以我决定使用pyPdf模块来获取页面数。

代码语言:javascript
运行
复制
import pyPdf
from tabula import read_pdf

reader = pyPdf.PdfFileReader(open("C:\Users\riley\Desktop\Bank Statements\50340.pdf", mode='rb' ))
n = reader.getNumPages() 

df = []
for page in [str(i+1) for i in range(n)]:
    if page == "1":
            df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", area=(530,12.75,790.5,561), pages=page))
    else:
            df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", pages=page))

注意,在单独阅读每个页面或同时阅读所有页面时,都有一些已知和公开的问题

祝好运!

2017年3月8日编辑:

找到了一种无需通过pyPDf就可以计算pdf页面的更简单的方法

代码语言:javascript
运行
复制
import re
def count_pdf_pages(file_path):
    rxcountpages = re.compile(r"/Type\s*/Page([^s]|$)", re.MULTILINE|re.DOTALL)
    with open(file_path, "rb") as temp_file:
        return len(rxcountpages.findall(temp_file.read()))

当然,file_path是文件的路径

票数 3
EN

Stack Overflow用户

发布于 2019-03-16 21:14:34

使用下面的代码!这可能对你有帮助!

代码语言:javascript
运行
复制
import os
os.path.abspath("E:/Documents/myPy/")
from tabula import wrapper
tables = wrapper.read_pdf("MyPDF.pdf",multiple_tables=True,pages='all')

i=1
for table in tables:
    table.to_excel('output'+str(i)+'.xlsx',index=False)
    print(i)
    i=i+1
票数 2
EN

Stack Overflow用户

发布于 2019-12-23 16:29:53

parameter'guess=False'将解决这个问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42538292

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档