Camelot只读了pdf的第一页。_是否可以使用camelot从pdf中仅提取表格？它应该只检测表格，而不是文本_仅用于第一页的PDF页脚 - 腾讯云开发者社区

python、python-camelot

tables = camelot.read_pdf(r"C:\Users\Ayush ShaZz\Desktop\Code_Python\FoodCaloriesList.pdf") for table in tables: print(table.df) 它只读了第一页。谁来帮帮我

浏览 32提问于2019-06-27得票数 5

2回答

如何使用camelot从pdf中提取表格？

python、csv、pdf、python-camelot

我想在python3中使用camelot从pdf中提取所有的表格。 import camelot # PDF file to extract tables from file = "./pdf_file/ooo.pdf" tables = camelot.read_pdf(file) # number of tables extracted print("Total tables extracted:", tables.n) # print the first table as Pandas DataFrame print(tables[0].df) # exp

浏览 29提问于2020-05-27得票数 1

1回答

TypeError:列表索引必须是整数或切片，而不是表

python、python-camelot

我试着用camelot的pdf格式提取一些表格。这是可行的，但现在我想从TableList中提取每个表，每一次都重命名这些表。下面是我代码的摘录： tables = camelot.read_pdf("file.pdf", pages = "1") table = "" for i in tables: globals()['table'+str(i)] = tables[i] 我有个错误： TypeError:列表索引必须是整数或切片，而不是表在这种情况下，我有两个表在第一页，在最后一期，我有数百页和几十个表格。

浏览 2提问于2022-07-05得票数 -1

1回答

Python库Camelot没有在一页中读取所有表

python、pdf、python-camelot

我正在使用Camelot库来读取pdf文档页面中的所有表我试着阅读这个第10页上的所有表格我试着调试绘图页面，如果我改变了页面的风格，我注意到了一些东西：这是带有风味的这是带有风味的问题是，如果我使用格子风味，它将无法正确地读取表--一个示例如果我使用风味=‘stream’，它将正确地读取数据，但只读取一个表：是这样命名的。我尝试使用table_area/table_regions来检测这两个表的味道=‘stream’，但是它没有工作。我把密码贴在这里。格码： import camelot file = "2022/Auto-trend0122.pdf" t

浏览 13提问于2022-03-31得票数 0

回答已采纳

7回答

AttributeError:模块'camelot‘没有属性'read_pdf’

python、python-camelot

我试图使用camelot从pdf中提取表格，并得到这个属性错误。你能帮忙吗？ import camelot import pandas as pd pdf = camelot.read_pdf("Gordian.pdf") AttributeError跟踪(最近一次调用) in ->1pdf= camelot.read_pdf("Gordian.pdf") AttributeError:模块'camelot‘没有属性'read_pdf'

浏览 18提问于2019-10-14得票数 14

1回答

“‘camelot”没有属性“read_pdf”

python、pdf

AttributeError: module 'camelot' has no attribute 'read_pdf' 我已经安装了camelot，camelot-py，camelot-py[all]甚至与tabula，尝试tabula-ty。什么都不起作用，尝试从camelot导入read_pdf，尝试使用camelot.io，总是得到没有属性'read_pdf‘的错误

浏览 58提问于2021-03-24得票数 0

1回答

如何使用python从pdf中提取单个行表数据？

python、pdf、ocr、python-camelot、tabula-py

我需要从pdfs中提取表格数据。pdf中的一些表只包含一行。我一直在尝试使用camelot库提取数据。使用Camelot提取代码： pip install camelot-py[cv] tabula-py here import camelot file = 'xyz.pdf' tables = camelot.read_pdf(file,pages ="all") tables[6].df 以上代码无法提取单个行表信息。例如，在pdf：中，该工具无法检测到最后一个表格(在标题“教师详细信息”下)，因为它只有一行。有人能提出解决办法吗？

浏览 18提问于2022-11-22得票数 -1

回答已采纳

2回答

从PDF表(如python中的tabula-py )导入旋转文本。

python、pdf、tabula-py

有没有一种方法可以从PDF表中导入旋转的文本，比如python中的tabula-py？我意识到在本例中我可以重命名列标题，但是我想知道是否有一种方法可以设置一个参数来导入旋转的文本。在tabula-py的readthedocs中，我没有看到任何提到旋转的地方，也没有找到其他的包来实现这一点(虽然我确实看到提到了旋转整个页面--这不符合这个用例，因为重命名列会更容易)。示例： import tabula list_df = tabula.read_pdf( 'https://sos.oregon.gov/elections/Documents/statistics/G22-

浏览 6提问于2022-11-10得票数 1

回答已采纳

1回答

如何使用python-camelot从同一目录下的多个PDF中提取数据？

python、pdf-scraping、python-camelot

我正在尝试从多个pdf格式的多个表中提取数据，并将其保存为csv格式。我做了研究，发现python-camelot是一个很好的提取工具。我试过了，它在单个pdf上工作得很好。然而，我有超过50个相同格式的PDF文件，所以我决定使用For循环迭代所有文件，但它不起作用，我得到一个错误文件没有在目录中找到。你能帮帮我吗。代码如下： import tkinter import camelot import os directory = 'C:\\Users\\Alr\\Desktop\\test\\' files = [ filename for filename in os.l

浏览 18提问于2020-03-12得票数 0

1回答

用Python从内存中读取PDF表

python、pdf、in-memory、python-camelot

我正在尝试读取从内存中的zip文件中提取的PDF文件，以获取文件中的表。Camelot似乎是一个很好的方法，但我得到了以下错误： AttributeError：'_io.StringIO‘对象没有属性'lower' 有什么方法可以读取文件并使用camelot解压缩表，还是应该使用另一个库？ z = zipfile.ZipFile(self.zip_file) for file in z.namelist(): if file.endswith(".pdf"): pdf = z.read(file).decode(encoding=

浏览 5提问于2022-06-07得票数 0

2回答

camelot python;OSError:异常:访问冲突写入0x00000080

python、python-3.x、pdf、python-pdfkit、python-camelot

我试图用Camelot从PDF文件中提取表格。下面是我的代码： import camelot tables = camelot.read_pdf('foo.pdf') print(tables) 当我运行这个脚本时，我得到了如下错误： File "C:/Users/gibin/PycharmProjects/ML/Table_Tester.py", line 20, in <module> table=tables = camelot.read_pdf(r"C:\Users\gibin\PycharmProjects\ML\Do

浏览 6提问于2019-10-24得票数 1

1回答

如何为非英语语言解析PDF格式的表格

python-3.x、parsing、pdf、python-camelot

我使用Camelot和tabula来解析包含Cyrillic符号的pdf文件。但是在输出CSV文件中，我得到了没有俄语符号的混乱字体。有什么能帮助我用一种非英语的语言解析pdf表格？ import camelot file = 'file-name.pdf' tables = camelot.read_pdf(file, pages = "1-end", encoding='utf-8') 输出： 00550529-1295-06 -РўРљР 5.РЎРћ1 0520529-12955-0066--РўРўРљРљРРўРўРљРљРР55-

浏览 1提问于2020-12-12得票数 0

回答已采纳

2回答

AttributeError:模块'camelot‘没有属性'read_pdf’

python、python-camelot

面对以下问题:有人能帮上忙吗？请..。尝试从PDF中提取表格数据时获得以下内容。 import camelot # PDF file to extract tables from file = input_folder+file_name tables = camelot.read_pdf(file) # number of tables extracted print("Total tables extracted:", tables.n) # print the first table as Pandas DataFrame print(tables[0].df

浏览 301提问于2021-01-10得票数 0

1回答

从pdf表格中提取数据为结构化格式

python、scraper、pdftotext、pdf-scraping

我想要抓取任何结构化格式的pdf表格数据，如html，xml，json。我使用的是python。我首先使用pdftotext命令行函数将pdf转换为文本。但是我不能区分pdf中表格的数据。 pdf图片如下所示：

浏览 4提问于2018-04-17得票数 1

1回答

如何欺骗camelot从字节字符串而不是实际文件中读取

python、pdf

我想知道是否有可能将pdf读入camelot，不是通过给出文件的路径，而是给出包含PDF数据的二进制字符串。我想这样做的原因是，我在zip文件中有PDF，而不是将内容提取到临时目录中，我想直接将字节数据传递给camelot。到目前为止，我已经尝试了以下几点： import ZipFile import Path from io import BytesIO import camelot zipFileName = Path("file.zip") # containing the PDF file pdf = ZipFile(zipFileName).read("

浏览 15提问于2022-03-05得票数 1

1回答

巨蟒中的Camelot不像预期的那样运行。

python-camelot

我有两个pdf文件，都在同一个布局与不同的信息。问题是:我可以很好地阅读其中一个，但另一个是无法识别的数据。这是一个我可以很好地阅读的例子，下载 from_pdf = camelot.read_pdf('2019_05_2.pdf', flavor='stream', strict=False) df_pdf = from_pdf[0].df camelot.plot(from_pdf[0], kind='text').show() print(from_pdf[0].parsing_report) --这是预期的数据格式

浏览 4提问于2021-09-09得票数 0

回答已采纳

3回答

ImportError:无法从“camelot.core”导入名称“TableList”

python

我试着用camelot从pdf中提取表格，但是它显示了这个错误信息！ import camelot tables = camelot.read_pdf("C:/Users/shres/Desktop/PY/Arun District Council_ASR-2019.pdf", pages='all') tables tables.export("test.csv", f='csv') tables[0] tables[0].parsing_report { '

浏览 10提问于2020-05-20得票数 8

回答已采纳

1回答

无法在MacOS Catalina的Python3.7(Anaconda)中导入camelot

python、python-3.x、macos、anaconda、python-camelot

我的环境规格 python --version Python 3.7.6 anaconda --version anaconda命令行客户端(版本1.7.2) sw_vers ProductName: Mac ProductVersion: 10.15.2 BuildVersion: 19C57 我使用下面的命令从安装了。 conda install -c conda-forge camelot-py 当我试图导入camelot用于pdf解析和文本提取时，附加日志。 Traceback (most recent call last): File "

浏览 5提问于2020-02-02得票数 3

1回答

python read_pdf()在.py内部执行时会抛出错误，但是在.ipynb -中运行良好，必须是字节或字节元组。

python、byte、python-camelot

我试着用camelot从pdf文件中读取表格。 tables = camelot.read_pdf(file, pages = "1-end") "\Myapp\upload\myenv\Lib\site-packages\camelot\io.py"，文件"extract_data.py"，第88行，在readpdftable =camelot.read_pdf(文件，页面= "1-end")文件第113行中，在read_pdf tables = p.parse(文件"\Myapp\upload\myenv\Lib\

浏览 7提问于2022-05-22得票数 0

1回答

Camelot PDF维数

python、python-camelot、pymupdf

在发布这篇文章之前，我已经对堆栈溢出进行了广泛的搜索，并没有在camelot页面的维度上找到任何内容。存在问题，它建议使用table_region，但这并不能解决OP的问题或我的问题。不幸的是，我不能对此发表评论，以跟进“任择议定书”，看看他们是否找到了解决办法。我想做的事：我使用Camelot来识别表(很明显)。有时，当我知道页面中可能包含感兴趣表的区域时，我只想在该区域中搜索。使用camelot.read_pdf()的table_region kwarg很容易做到这一点--我只需要为Camelot提供一对搜索坐标。问题是，我使用PyMuPDF获取这些坐标，所以它们位于PyMuPDF的

浏览 1提问于2019-12-03得票数 4

1回答

如何使用python在pdf文件中找到发票表的面积坐标？

python、extract、invoice、tabula、python-camelot

如何使用python在pdf文件中找到发票表的面积坐标？我目前正在使用camelot或tabula从pdf文件中提取表格。然而，我想知道是否有方法提取每个表的面积坐标，以便我可以相应地进行定制

浏览 25提问于2020-08-28得票数 0

2回答

如何使用python将给定的PDF文件提取为文本和表格，并将数据存储在.csv文件中？

python、ghostscript、data-extraction、pypdf2

我需要提取第一个表的账号、分行名称等，以及最后一个表的日期、描述和金额。 pdf文件:使用pypdf2库获取空白输出的https://drive.google.com/file/d/1b537hdTUMQwWSOJHRan6ckHBUDhRBbvX/view?usp=sharing。camelot提供OSError:未安装Ghostscript。 import PyPDF2 file_path =open(r"E:\user\programs\28_oct_bank_statement\demo.pdf", "rb") pdf = PyPDF2.PdfFile

浏览 30提问于2021-10-28得票数 0

2回答

用Camelot解析Python并提取表标题

python、pdfminer、tabula、python-camelot

Camelot是一个非常棒的Python库，可以作为数据框架从pdf文件中提取表。然而，我正在寻找一个解决方案，它也返回表的描述文本，写在表的上方。我用于从pdf中提取表的代码如下： import camelot tables = camelot.read_pdf('test.pdf', pages='all',lattice=True, suppress_stdout = True) 我想提取写在表上的文本，即，如下图所示，表示详情。对我来说最好的方法是什么？感谢你的帮助。谢谢

浏览 0提问于2019-10-01得票数 5

回答已采纳

2回答

从PDF中提取表格的tabula vs camelot

python、pdf、tabula、python-camelot

我需要从pdf中提取表格，这些表格可以是任何类型的，多个标题，垂直标题，水平标题等。我已经实现了两个表的基本用例，并且发现tabula比camelot做得更好，仍然不能完美地检测所有表，而且我不确定它是否适用于所有类型的表。因此，向实施类似用例的专家寻求建议。示例PDF：表格执行情况： import tabula tab = tabula.read_pdf('pdfs/PDF1.pdf', pages='all') for t in tab: print(t, "\n=========================\n")

浏览 3提问于2020-04-23得票数 4

回答已采纳

1回答

为什么即使卡梅洛特已经在我的电脑上也没被找到？

python、import、pip、installation

下面是我试图导入camelot的代码： import camelot as cl 以下是答复： ModuleNotFoundError Traceback (most recent call last) <ipython-input-6-360275993d18> in <module> ----> 1 import camelot as cl 2 tables = cl.read_pdf('C:\\2019.pdf', pages='47', flavor='stre

浏览 19提问于2020-06-10得票数 1

回答已采纳

3回答

ModuleNotFoundError:没有名为“camelot”的模块

python、pip、python-camelot

我想从pdf中提取表格，为此我使用了Camelot。但是每当我尝试导入它时，我都会得到这个错误： import camelot Traceback (most recent call last): File "<ipython-input-11-679d8f55abf0>", line 1, in <module> import camelot ModuleNotFoundError: No module named 'camelot' 我尝试使用以下命令安装camelot： pip in

浏览 96提问于2020-05-05得票数 1

2回答

如何查找camelot的表区域

python-camelot

正如在camelot中提到的，我们可以从特定区域提取表，例如： tables = camelot.read_pdf('table_regions.pdf', table_regions=['170,370,560,270']) 但是我怎样才能为我的pdf找到这些区域。

浏览 34提问于2019-09-20得票数 3

1回答

Python: Camelot(安装时错误: GhostscriptNotFound )用于M1 MacOS

apple-m1、python-camelot

使用Camelot进行PDF解析时遇到的问题。无法找到'gs‘软件包，尽管它已经以任何可以想象的方式安装.使用M1蒙特利操作系统。虽然GS已经明确安装(gs从终端根目录中启动很好)，但在本地安装python / Xcode时，路径变量是通过“导出路径”添加的。在尝试解析PDF表时，Ghostscript没有安装，仍然会出现相同的错误。在这方面有什么建议或经验吗？人们会认为这不应该是一个巨大的痛苦来解决.

浏览 12提问于2022-06-02得票数 1

1回答

Camelot Matplotlib窗口突然关闭

python、matplotlib、python-camelot

import camelot import pandas as pd import matplotlib file = 'foo.pdf' tables = camelot.read_pdf(file, pages='all', flavor='stream') camelot.plot(tables[0], kind='text').show() matplot窗口在没有任何用户输入的情况下在闪存中打开并突然关闭。我希望窗口保持打开以检查内容。编辑:我使用Windows 11和Python3.9，在Pycharm上运行代码

浏览 11提问于2022-05-22得票数 1

2回答

多线程处理pdf文件列表时出现“不支持文件格式”

python、python-3.x、python-multithreading、python-camelot

我正在自学python中线程的基础知识，我被卡住了。我想让脚本将一个函数应用到pdf列表中。这个函数只是简单地计算每个pdf文件中的表数，然后返回每个文件有多少个表数的组合列表。现在，我收到一个错误，说我的“文件格式不受支持”。据我所知，列表中的每个路径都是以.pdf结尾的完整路径。我不知道我做错了什么？我已经将代码精简到了显著的地方，并在下面包含了我的代码 import camelot from multiprocessing.dummy import Pool as ThreadPool import glob import os #get a list of all the p

浏览 2提问于2019-03-11得票数 1

1回答

Camelot Pdf提取失败解析

python、pdf、python-camelot

我遇到卡米洛特图书馆的问题我从PDF中提取数据，我的代码对前23页运行"ok“，但在本例中，它无法解析文本/表的结尾我想问题是字符串是如此长的到达表边框。也尝试过“流”，但效果最差。 PDF源数据 PDF输出布局我的输出被解析为 "ALT4945\n24 V" "70\/140 A ALT5860\n12 V\n90 A" 期望的输出应该是 "ALT4945\n24 V 70\/140 A" "ALT5860\n12 V\n90 A" 我为上一页正确工作的第一段代码是 tables = ca

浏览 1提问于2019-11-13得票数 3

1回答

尝试使用camelot-py绘制pdf表，但没有出现表

python、matplotlib、python-camelot

我正在尝试绘制表格以进行调试并查找表格坐标，但是该图形从未出现在屏幕上。我已经下载了camelot的所有依赖项，但我似乎想不出如何让图形出现。 file = "JapanTownDoorSchedule.pdf" tables = camelot.read_pdf('JapanTownDoorSchedule.pdf', process_background = True, flavor = 'lattice') print(tables[0].parsing_report) plt = camelot.plot(tables[0], k

浏览 31提问于2021-02-27得票数 0

回答已采纳

1回答

Camelot-py不检测两行表

python、python-camelot

使用Camelot从.PDF中抓取表数据，它不检测2/1行的表。 PDF我试着读：用于读取表的代码： abc = camelot.read_pdf('IR-O-U-0436.pdf', pages="all") 我得到的输出：从图片中可以看出，赞助研究表正在abc15中读取，咨询项目详细信息表的第二部分正在abc16中读取，而Camelot忽略了咨询项目详细信息表的第一部分。任何洞察力都将不胜感激。

浏览 4提问于2021-11-11得票数 0

1回答

是否可以使用camelot从pdf中仅提取表格？它应该只检测表格，而不是文本

python、tabula、python-camelot

tables = camelot.read_pdf('test1.pdf', flavor='stream',edge_tol=500, row_tol=10, pages='all', split_text=True, flag_size=True) camelot.plot(table, kind='contour') table.to_csv('result'+str(i)+'.csv',index=False) 目前我使用的是这个逻辑，但是它从文本理论中获取了所有东西。

浏览 14提问于2020-06-09得票数 1

1回答

基于camelot的熊猫数据框架PDF表

python、pandas、python-camelot

我试图创造一种简单的方法，从pdf中获取数据到熊猫数据框架中。就像这样： import camelot import pandas as pd pdf = camelot.read_pdf("file1.pdf") print(pdf[0].df) 关键是我尝试使用两个不同的文件：和，但是对于第二个文件，我无法获得信息。它有更多的专栏，但我相信这不应该是一个问题。另外，从文件2中获取表的唯一方法是使用flavor="stream" 结果结果

浏览 1提问于2021-09-29得票数 1

回答已采纳

2回答

使用Camelot查找PDF尺寸

python、pdf-extraction、python-camelot

我正在使用Camelot来阅读完整的PDF，并从每个PDF中提取约112个属性。我使用表区来提取属性 test_variable = camelot.read_pdf(filename, flavor='stream', table_areas=['38, 340 ,50, 328']) 问题是，对于所有文档中的相同属性，表区域并不是恒定的。有时我会在另一个文档的x或y坐标中找到几个像素以下的相同属性。 test_variable = camelot.read_pdf(filename, flavor='st

浏览 23提问于2019-01-14得票数 4

2回答

Python UnicodeEncodeError当使用流口味时，在Windows上

python、character-encoding、python-camelot

Windows10.Camelot0.8.2上的Python 3.7 我使用以下代码将pdf文件转换为HTML： import camelot import os def CustomScript(args): path_to_pdf = "C:\PDFfolder\abc.pdf" folder_to_pdf = os.path.dirname(path_to_pdf) tables = camelot.read_pdf(os.path.normpath(path_to_pdf), flavor='stream',

浏览 4提问于2020-08-13得票数 1

回答已采纳

2回答

将PDF数据提取到数据仓库中

python、pdf、python-camelot

我试着把这些数据转化成熊猫的数据：我正在使用camelot，而且它是“工作的”，但是，我只得到了2列的代码： import camelot tables = camelot.read_pdf('Inventory_Summary.pdf', flavor='stream') print(tables[0]) 正在发生的事情是，它正在考虑左边1列上的所有内容，而在第2列中唯一的信息是被黑的信息。我只想把日期下面的信息写成数据任何你能提供的帮助都应该是伟大的！谢谢! -littlejiver

浏览 12提问于2022-05-21得票数 1

回答已采纳

2回答

Camelot:使用"table_regions“参数返回”要解包的值太多(应为4)“

python、python-camelot

我正在尝试使用Camelot从pdf中提取表格数据。当使用参数"table_regions“时，我得到了错误”要解包的值太多(预期为4)“ tables = camelot.read_pdf('BOA1.pdf',flavor="stream",pages="3",table_regions=['1,1,1,1']) 结果是： ValueError Traceback (most recent call last) <ipython-input-

浏览 25提问于2019-05-06得票数 0

1回答

在自定义IDE中找不到Python导入Camelot模块

python、python-camelot

我正在使用一个定制的脚本环境，并尝试使用Pythonv3.7.4的Camelot来转换pdf文件。当我在Windows中从命令行运行该脚本时，它可以正常工作。当我从定制的集成开发环境中运行脚本时，我得到一个与import Camelot行相关的错误，它显示"Camelot module not found“。我知道有一个自定义集成开发环境的文件夹，我应该在其中放置要导入的.py文件。问题是，在我的文件结构中，我能为Camelot找到的唯一文件是一个camelot.exe文件。有人知道import Camelot命令实际导入的.py文件是什么吗？

浏览 28提问于2019-10-16得票数 0

1回答

表未被识别

python、pandas、tabula、python-camelot

import pandas as pd from tabula import read_pdf FileName="Filepath" DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True) print DF3 import pandas as pd import camelot FileName="Filepath" tables = camelot.read_pdf(FileName,pages='1-en

浏览 10提问于2019-02-28得票数 0

1回答

无法从tabula或Camelot提取表

python、dataframe、python-camelot、tabula-py

尝试使用Tabula提取下表，但它返回的是空数据。对于其他类似的桌子，它也很好用。也试过使用卡梅洛特，但效果不太好。对我如何提取这些有什么建议吗？附加了我的密码 from tabula import read_pdf from tabulate import tabulate from tabula import read_pdf import pandas as pd # from tabula.io import read_pdf Page_No = 1 tables = read_pdf('/content/page1.pdf',pages=Page_N

浏览 5提问于2022-11-14得票数 0

回答已采纳

1回答

DataFrame按列值组合行，其中日期行为空。

python、python-3.x、pandas、python-camelot

场景：解析PDF语句并转换为干净和格式化的csv文件。我尝试过的：我设法使用camelot库解析pdf文件(表格格式)，但是在格式化意义上没有产生期望的结果。代码： import camelot import pandas as pd tables = camelot.read_pdf('test.pdf', pages = '3') for i, table in enumerate(tables): print(f'table_id:{i}') print(f'page:{table.page}')

浏览 3提问于2021-05-01得票数 0

2回答

Python多页PDF到CSV

python

我需要移动数据从pdf到表和这个脚本几乎正确。唯一的问题是每个页面都保存到一个单独的文件中。我怎么做才能把所有的东西都放在一个文件里呢？ import camelot import pandas as pd import pyodbc file = "O:\Files to Import\Millwood - DEV\LIST.PDF" tables = camelot.read_pdf(file,pages='all') tables[0].to_csv("O:\Files to Import\Millwood - DEV\FOOOO.csv"

浏览 5提问于2022-08-26得票数 0

1回答

从PDF文件中提取多个表，并使用python将其转换为dataframe？

python、pdf、tabula

我有一个5页的pdf文件，每页有几个表，我需要提取。我需要从每个页面中提取所有的表，并将它们保存为数据框文件，所有这些都使用python 我试了很多方法，但都不能做到，请帮帮忙

浏览 27提问于2021-01-07得票数 0

2回答

如何使用python从pdf文件中提取表名和使用camelot的表？

python、python-3.x、python-camelot

我试图使用python中的camelot从pdf文件中提取表和表名。虽然我知道如何使用camelot提取表(这非常简单)，但我很难找到关于如何提取表名的任何帮助。其目的是提取这些信息，并显示表及其名称的可视化，以便用户从列表中选择相关的表。我已经尝试过从pdfs中提取表格，然后也提取文本。我在这两个方面都很成功，但没有将表名连接到表中。 def tables_from_pdfs(filespath): pdffiles = glob.glob(os.path.join(filespath, "*.pdf")) print(pdffiles) dicti

浏览 3提问于2019-10-03得票数 3

回答已采纳

1回答

如何从PDF文件中的表中提取多个熊猫数据，并将它们存储为Python中的CSV？

python、pandas、dataframe、pdf

我有一个食谱PDF文件，它由各种表组成，这些表描述了我正在使用的一个数据集中使用的变量。由于实际数据由我需要查找的值组成，因此需要从本食谱中的所有表中创建多个CSV输出文件。例如，在这个PDF文件的第15页，我们有一个表如下所示，我需要从中提取熊猫数据，以便我可以将它保存为CSV文件供以后使用。我不关心这些表中的“总计”，因为我只需要value和label字段。我试图通过在Python中使用camelot库来解决这个问题- import camelot # try extracting table from 1 of the pages tables = camelot.read_p

浏览 12提问于2021-12-08得票数 0

1回答

多页pdf上的不同table_areas

python-camelot

我想从多页pdf中提取表格。由于表属性，我需要对read_pdf使用flavor='stream'和table_areas属性，以便正确检测我的表。我的问题是表在每个页面上的位置是不同的(第一个页面有一个地址头，而另一个页面没有) 我尝试为read_pdf函数提供几个方面，如下所示： camelot.read_pdf(file, pages='all', flavor='stream', table_areas=['60, 740, 580, 50','60, 470, 580, 50']) 但是这个结果是每页有2

浏览 4提问于2021-07-12得票数 0

2回答

如何在aws Lambda中安装Ghostscript？

ghostscript、python-camelot

错误消息：Please make sure that Ghostscript is installed", "errorType": "RuntimeError" import camelot def pdfToJson(event=None, context=None): tables = camelot.read_pdf("./week-1-2019-20.pdf") tables[0].df.to_json("./sample.json") 使用pip安装-t安装依赖项。但还是会犯错

浏览 1提问于2019-11-15得票数 1

1回答

用Camelot从多页PDF中提取不同页面上的多个表

pdf、extract、multipage、python-camelot

我的PDF包含3个页面上的16个表，我希望使用Camelot将其作为一个单一工作表输出到Excel文件中。我可以提取每个页面没有任何问题，但我不知道如何处理所有3页在一次传递。我的代码如下所示： # Read Obslog Page 1 to extract all the required tables obstables = camelot.read_pdf(filepath, pages='1', \ flavor='stream'

浏览 9提问于2022-08-14得票数 0