如何强制pdfplumber根据上面行的列数提取表格？

文章/答案/技术大牛

发布

2回答

python、pdf

我正在尝试用python包pdfplumber从PDF文档中提取一个表。该表有四列和多行。第一行是标题，第二行只有一个合并的单元格，然后值被正常保存(例如) pdfplumber能够检索表格，但如果有四列，它会生成6列，并根据列保存值。我尝试使用不同的表格设置，包括“垂直策略”：“线”，但这产生了相同的结果。# Python 2

浏览 47提问于2019-10-09得票数 0

2回答

如何使用pdfplumber将表详细信息提取到行和列中

python、pandas、dataframe、pdfplumber

我正在使用pdfplumber从pdf中提取表格。但是，正在使用的表没有可见的垂直线分隔内容，因此提取的数据被分成3行和1列。 ? 我想把上面的表格排成13行。import pdfplumberimport numpy as np with pdfplumber.open('test.p

浏览 67提问于2021-08-21得票数 0

2回答

水管工认不出桌面巨蟒

python、tabular、pdf-extraction

我使用Pdf管道工提取第2页第3节中的表格(通常)。但它只适用于一些pdf，而另一些则不起作用。对于失败的pdf文件，它似乎Pdf管道工阅读按钮表，而不是我想要的表格。工作的pdf连结：import pdfplumber pdf = pdfplumber.open("/Users/chueckingmok&

浏览 10提问于2020-07-20得票数 3

1回答

水管工错过了原理图中所有表的第一列和最后一行。

python、pdfplumber

我是新来的水管工，我惊讶于它是如何从表格中提取文本的。它无法提取文档中每个表的第一列和最后一行。我试图调整table_settings变量中的几个配置参数，不幸的是，我没有能够获得更好的结果(在我的例子中，如果我使用"tex

浏览 13提问于2021-11-22得票数 0

回答已采纳

1回答

如何在PDF文件中找到表格网格线？

python、pdf-extraction、python-camelot、pymupdf、pdfplumber

为了更准确地提取表单元格中嵌入的类似表格的数据，我希望能够识别PDF中的表单元格边界，如下所示：我已经尝试使用Camelot、pdfplumber和PyMuPDF来提取这样的表，并取得了不同程度的成功但由于我们收到的PDF格式不一致，即使在指定表格边界时，我也无法可靠地获得准确的结果。我发现，如果我通过显式指定单元格边界来单独提取每个表格</

浏览 12提问于2021-03-04得票数 0

3回答

添加新数据时Excel表不展开

excel、vba

我有一个Excel电子表格，在同一个选项卡上包含四个数据表。每列中的最后3列包含公式。但是，对于第一个表，数据被粘贴进去，但表不会展开，因此，公式不会添加到表外的行中。我到处寻找固定的东西，但没有任何乐趣。我搜索了数据<

浏览 3提问于2013-11-13得票数 2

1回答

数组公式，省略某些列并合并

arrays、if-statement、google-sheets、google-sheets-formula、array-formulas

我正在处理一个表，其中我需要根据行"Type“提取某些列的内容。例如，如果行3的版本为"Type 1"，那么我需要从该行提取列1、3和5。我需要为第2列和第4列放置一个"x“。我已经创建了一个数组公式，可以让我知道需要提取哪些列，但我不知道如何按需要的顺序将数据合并到一列

浏览 29提问于2020-05-18得票数 0

2回答

多个Excel电子表格导入到R

我有一个包含数百个电子表格的Excel文件。 11111 | 2813A | Whatever | 100 11111 | 7721CD 因此，正如您在上面看到的，数字的五位数<

浏览 0提问于2017-03-03得票数 1

1回答

子报表上的SQL Server Reporting Services 2005列自动换行

reportingservices-2005

有没有人知道如何设置子报表的高度和宽度，以便强制子报表分成几列？分界:我必须在表格报表上方的页眉中有限的空间中显示图例，并且我希望限制图例的高度，以便根据需要将其包装到多列中。例如，子报表可能是从包含8个项的数据集中提取的:1-红色、2-蓝色、3-紫色、4-绿色、5-黄色、6-橙色、7-棕色、8-黑色。我希望将子报表格式化为3列/3<

浏览 4提问于2009-06-12得票数 0

回答已采纳

1回答

单元格跨越动态生成的表的所有列

html、internet-explorer

对于我的应用程序中的一个显示页面，我正在生成几个动态表，它们的列计数根据特定的业务逻辑而变化。但是，我需要有一个横跨整个表的"title“行。但有趣的是，它在兼容性视图中工作得很好(这几乎与它在opera中的显示方式相同

浏览 0提问于2011-09-08得票数 1

3回答

PostgreSQL select查询中的最大列数是多少

sql、postgresql、postgresql-9.2

您知道在Postgresql中可以查询的最大列数吗？在开始我的项目之前，我需要知道这一点。

浏览 6提问于2012-09-27得票数 47

回答已采纳

2回答

计算OpenDocument电子表格中的列数(ODS文件)

c#、xml、xmldocument、ods、opendocument

我在C#中创建了一个非常简单的应用程序，它使用和XmlDocument类读取文件。由于格式化和样式与我的应用程序无关，所以这是相对直接的。该格式包括与此问题相关的几个元素( <table:table-column>、<table:table-row>、<table:table-cell>和<table:covered-table-cell即使考虑了列的重复，列元素的数量也不一定与电子表格中<e

浏览 4提问于2013-09-01得票数 0

回答已采纳

2回答

使用VBA合并Excel工作表

vba、excel

我有一个Excel表格(比如OG.xls)，其中已经有一些数据，其中有大约5000行，第一行有标题，最多有"AN“列。行数(5000)在一整年内都不会改变。现在我有5个XL文件(比如A、B、C、D、E)，这些文件中的数据每次都必须从第500行开始添加到这个OG文件中。这5个文件的列数不同，但与OG文件的列数相同。我必须从这些文件中提取数据，并将其放入OG

浏览 4提问于2008-10-23得票数 2

1回答

是否有excel公式可以从混合数据列的最后25行中提取数字？

excel-formula

是否有excel公式可以从混合数据列的最后25行中提取数字？行可以是十进制数，也可以是N/A 

浏览 0提问于2018-07-10得票数 0

2回答

如何在谷歌单张中按字长排序，然后按字母顺序排列？

google-sheets、sorting

我有一个本地JavaScript函数来对我描述的方式进行排序： })['bar', 'baz', 'foo', 'bing',

浏览 0提问于2022-10-26得票数 1

回答已采纳

1回答

如何在JRxml文件中创建动态列以生成jasper报表？

jasper-reports

我有一个数据集，使用jasper report以表格格式显示，目前正在编写.jrxml文件。TEST_ID LEVEL

浏览 1提问于2012-11-01得票数 7

1回答

列跨度可以在html中浮动吗？

html

我在表格中有一个列，它应该是上面一行的2.5英寸宽，有没有可能一旦我给出了这么多的宽度提取，上面一行的第一列就不会受到影响？

浏览 1提问于2011-08-17得票数 0

1回答

Python中的Regex不返回任何内容(使用regex时搜索参数关键字用于搜索)

python、regex

我不太确定regex是如何工作的，但我正在尝试做一个项目(还没有设置它，但首先使用一个test pdf在代码的pdf索引方面)来分析标记方案pdf，并在此基础上对有用的数据做任何事情。我正在尝试迭代或遍历每一行的开头1-2位数(问题列)，然后使用re.compile(r'\d{1} [A-D]')在以下代码中使用A(答案列)：import requests importpdfplumb

浏览 1提问于2022-05-21得票数 0

回答已采纳

1回答

如何使用PDFPlumber从两列PDF中提取文本

python、text-extraction、topic-modeling、information-extraction、pdfplumber

我正在使用python进行主题建模任务，我想从年度/可持续性报告中提取文本。然而，我的问题是，当我试图提取报告时，摘录的线条在一页中的两列之间被分开，即它将相邻段落中的两行连接起来，形成一个句子。我如何准确地提取报告中所显示的线条。我已附上该报告的版本和该函数提取的线条。下面是我使用的函数： #函数从url中获取pdf

浏览 5提问于2021-08-25得票数 2

3回答

表-布局:修正忽略td的最小宽度

css、css-tables、tablelayout

我有一个项目，它需要一个包含固定宽度和灵活宽度列的表。通过添加表布局:min；在表中，我能够获得所有宽度相等的灵活宽度cols，但是，然后该表忽略td的最小宽度属性。如果我删除表的布局:固定的，最小宽度工作，但灵活宽度科尔都有不同的</

浏览 14提问于2011-08-10得票数 19

回答已采纳

点击加载更多