如何抓取一个有嵌套表的表？

、、、、

我正在试着刮一下附图中所示的表格。 ? 所需的输出： ? 我尝试过使用selenium和python的漂亮汤库来清理它。但是excel的输出都是乱七八糟的，尤其是嵌套表部分。我想要如上图所示的输出。下面是该表的HTML代码。</tbody> <&#

浏览 14提问于2020-08-08得票数 1

1回答

BeautifulSoup抓取嵌套表

、、

我一直在尝试从一个使用大量表格的网站上抓取数据。我一直在研究美丽的汤文件，以及这里的堆叠溢出，但仍然迷失了。"center"><br /></td> </table> </tr> 有相

浏览 4提问于2015-05-05得票数 6

回答已采纳

5回答

嵌套表上的Watir slow

、、、、

我正在使用watir-webdriver从带有嵌套表布局的页面中进行抓取。举个例子，我在建立了一个很小的玩具网站。要搜索包含苏联和巴西元素的最内部表，我使用以下代码：require "watir-webdriver"br.gototable(:text,reg).table(:text,reg).table(:text,reg

浏览 0提问于2011-06-17得票数 1

回答已采纳

2回答

如果没有类或id属性，如何使用bs4 4/python在一组嵌套表中找到所需的表？

、、、

我有以下复杂的HTML结构，我必须从这个结构中解析嵌套的表，并从我想要的表中抓取。页面上有很多表格。我很安静，想不出怎样才能到达那张有数据可刮的桌子。这是页面的URL。

浏览 5提问于2013-11-20得票数 0

回答已采纳

1回答

htmlagilitypack选择节点返回null

、、、

我使用此代码来获取页面信息，但现在站点已更改，并且我的应用程序返回null错误。//td[2]").InnerText}).ToList(); <div role="tabpanel" class="tab-pane fade " id="tab3

浏览 47提问于2018-08-12得票数 1

回答已采纳

1回答

cocoa，具有核心数据数据源的表视图

、、

我的目标是用从核心数据获取的实体填充一个表视图。我已经为我的主窗口视图创建了一个自定义控制器类。我还有一些代码来获取我的类别实体NSEntityDescription *entity; NSLog(@"categories %@&q

浏览 2提问于2013-06-19得票数 0

回答已采纳

1回答

glue爬虫ETL后的雅典娜流水线查询

、、、、

我有要进入S3存储桶的数据，我想每小时对其运行一次查询。数据以JSON的形式传入。我抓取它，在数据上运行作业以将其转换为ORC格式，然后再次抓取它以创建一个比原始JSON更快的表(因为它们嵌套得很深)。我正试着和雅典娜一起查询数据。这里的问题是，最后一个爬虫应该创建新的表，而不仅仅是同一个表的分区，因此在运行作

浏览 19提问于2019-02-12得票数 1

1回答

使用BeautifulSoup找不到深度嵌套标记ID

、

我试图从中抓取NBA数据，但我遇到了BeautifulSoup抛出深度嵌套标记的问题。我试着用soup.find(id='opponent-stats-per_game')来抓取“对手每个游戏统计”表。然而，我得到了None的结果。如果我试图找一个在树上更高的div，那么它会剪辑更深的孩子。有人能给我一些指导吗？我对使用BeautifulSoup进行网络抓取相当陌生。

浏览 1提问于2019-04-03得票数 0

回答已采纳

1回答

从标记中提取惟一的类名

、、、

我正在把(对我来说)相当大的数据刮成一个漂亮的汤对象。典型的抓取结果是600页或更多的html标记，有许多嵌套的表。我试图更好地理解结构，以便有效地将数据从表中提取出来。这些汤对象中有多达500个表，其中有许多“重复”表类。以下是两个例子。<table class="TableClass1"> <table class=&qu

浏览 0提问于2020-01-10得票数 0

回答已采纳

1回答

如果网站有多个表，如何抓取特定的表？

、、

我最近写了一个脚本，从一个网站()上抓取一些财务数据，这样我就可以跟踪项目交易量的变化。我过去常常使用它从'table20‘中获取值。soup = BeautifulSoup(current_page, 'html.parser')但是，tbl现在是一个没

浏览 0提问于2020-03-23得票数 0

1回答

在python中从嵌套的URL中抓取和解析表

、、、

我想出了怎么刮擦如果页面有一个表，则从HTML页面中删除表，但现在我需要刮擦和解析表从子链接，这是在母链接，我想我需要循环通过所有的子链接来解析它的表，我感兴趣的。我的尝试这是我目前的尝试刮擦并从HTML页面解析单个表，但我不知道如何从嵌套的HTML页面中抓取和解析具有唯一表名的表，并在最后

浏览 33提问于2020-07-28得票数 1

回答已采纳

1回答

Python漂亮汤抓取桌

、

我不确定我是不是抓到了正确的标签。这是我到目前为止所拥有的。当我悬停在那个标签上时，它会高亮显示这个表吗？

浏览 6提问于2014-04-02得票数 2

回答已采纳

1回答

C/C++：在嵌套表中，如何在__index函数中找到顶部？

、

在有一个嵌套的表和使用一个元与__index函数。在__index函数中，我只接收嵌套的表和字符串索引。如何向后搜索以找到表的根？

浏览 2提问于2014-08-24得票数 0

回答已采纳

1回答

如何获得具有特定内容的td的表？

、

我将selenium用于web抓取：path_to_chromedriver = '/usr/lib/chromium-browser/chromedriverexecutable_path=path_to_chromedriver) element = browser.find_element_by_id('email') 现在，我有了一个网站，它生成大量嵌套</

浏览 2提问于2017-08-17得票数 0

回答已采纳

1回答

从添加到按钮按下的html中抓取网页

、、、

我试图从有一个巨大表的页面中抓取数据，该表将100个条目显示为默认值。底部有一个select/选项，允许您将条目更改为200或全部。如何在刮表之前将selecter设置为All，因为我希望从所有条目中抓取，而不仅仅是前100项。我使用node.js/JavaScript从页面中抓取。

浏览 1提问于2016-10-17得票数 0

回答已采纳

1回答

Asciidoctor嵌套表

、

我试图在我的Asciidoctor pdf输出中创建嵌套表，但我找不到语法。我已经按照表11中的示例进行了尝试：，但无济于事。

浏览 1提问于2017-02-27得票数 0

2回答

Nutch正则表达式不能按我希望的方式爬行

、、

好吧，我已经问过了，但我猜我没有问到stackoverflow期望的方式。希望这一次我能有更多的运气和答案。我要它爬行该网站和所有子链接。+^http://([a-z0-9]*\.).)*http://tigerdirect.com 基本上，我试图完成的是爬行他们的网站上的<

浏览 1提问于2013-04-20得票数 2

回答已采纳

3回答

从select语句查询

、

我们可以从查询中进行查询吗？select * from (select budgetyear from bg_year)

浏览 0提问于2012-12-21得票数 0

2回答

如何从网页中抓取表，并排除在tables<td>标记中取消的特定表

、、、

我想从一个特定的网页上刮一张桌子。问题是，表的某些td包含包含另一个嵌套表的嵌套span标记。我想从其中刮出的网页是下面的。我已经包含了一个表的小样本，我想用一个类工具提示图标包含在span标记中的嵌套表进行抓取。当抓取整个表时，

浏览 2提问于2019-05-02得票数 1

回答已采纳

1回答

R:抓取嵌套的带链接的html表格(单元格中的表格)

、、

对于大学研究，我尝试抓取FDA的表格(robots.txt允许抓取此内容) 该表包含19行和2列： https://www.accessdata.fda.gov/scripts/cdrh/cfdocs由于第2列的某些单元格包含表，因此此方法不会提供相同数量的项： # extract col 2 items html_nodes("td") %>% html_t

浏览 21提问于2021-02-27得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

BeautifulSoup抓取嵌套表

嵌套表上的Watir slow

如果没有类或id属性，如何使用bs4 4/python在一组嵌套表中找到所需的表？

htmlagilitypack选择节点返回null

cocoa，具有核心数据数据源的表视图

glue爬虫ETL后的雅典娜流水线查询

使用BeautifulSoup找不到深度嵌套标记ID

从标记中提取惟一的类名

如果网站有多个表，如何抓取特定的表？

在python中从嵌套的URL中抓取和解析表

Python漂亮汤抓取桌

C/C++：在嵌套表中，如何在__index函数中找到顶部？

如何获得具有特定内容的td的表？

从添加到按钮按下的html中抓取网页

Asciidoctor嵌套表

Nutch正则表达式不能按我希望的方式爬行

从select语句查询

如何从网页中抓取表，并排除在tables<td>标记中取消的特定表

R:抓取嵌套的带链接的html表格(单元格中的表格)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐