使用BeautifulSoup从网页中抓取嵌套表

、

在查看页面时，我意识到此信息深度嵌套在其他较大的表中，并且没有特殊的class/id可供我有效地解析特征信息。我一直试图在表中查找表，但没有成功，但我发现有时并不是所有的表都被读取。这就是我到目前为止所知道的：import requests source= requests.get("https://www.ncbi.nlm.nih.govacc=G

浏览 0提问于2018-01-24得票数 0

回答已采纳

1回答

Python web从asx抓取-无法获取公告表

、

我试图从asx页面中抓取公告表，然而，当我使用BeautifulSoup解析html时，这个表不在那里。import requestsfrom bs4 import BeautifulSoup url='https://www2.asx.com.au/markets/trade-our-cash-market/announcements.cba&#x

浏览 17提问于2021-02-26得票数 0

1回答

Python BeautifulSoup从网页中抓取表

、、

我正在尝试从网页中抓取数据，该网页包含当前登录到该站点的用户的表browser = RoboBrowser()form['txtPWD'].value = 'myPassword' browser.

浏览 1提问于2018-07-19得票数 0

1回答

我试着用BeautifulSoup获取信息。但在目前，它似乎没有发挥作用。我试着搜索网页，尝试不同的解决方案，但没能让代码正常工作。我想知道我必须更改table = soup.find_all("table", { "class" : "table1" }) --行，因为有5个带有class='table1'的表，但是我的代码只找到我必须为表创建一个循环吗？当我试着做这件事时，我无法让它发挥作用。另外，在下一行table_body = tabl

浏览 0提问于2015-12-13得票数 2

回答已采纳

2回答

当web在Python中搜索表时，返回一个空表。

我需要通过使用Python中的BeautifulSoup库进行web抓取，从网站抓取一个表。URL https://www.nytimes.com/interactive/2021/world/covid-vaccinations-tracker.htmlfrom bs4 import BeautifulSoup<

浏览 0提问于2021-04-18得票数 3

回答已采纳

2回答

如何抓取既包含纯文本又包含“双引号”文本的表数据？

、、

我试图从zone-h.org网页上抓取数据。首先，我通过在脚本中添加cookie绕过了网页captcha错误。然后我用BeautifulSoup抓取这个表并存储它。但是，其中一列没有纯文本；信息存在于引号("...")中。from bs4 import BeautifulSoupimport pandas as pd url = "http:/

浏览 29提问于2019-08-01得票数 0

回答已采纳

2回答

优美汤对象不包含来自网页的完整表，而是抓取前100行。

、、、

我试图从spotrac.com网站上抓取表格，并将数据保存到熊猫的数据中。无论出于什么原因，如果我正在抓取的表超过100行，则对象只会抓取表的前100行。如果您访问网页()和ctrl+F "David“，您将看到还有其他行。如果您将代码的get行中的网页更改为"“，您将看到同样的事情发生了。只有前100行包含在BeautifulSoup对象和dataframe中

浏览 5提问于2020-07-01得票数 0

回答已采纳

1回答

美汤4在表格中查找文本

、、、、

我一直在尝试使用BS4从网页中抓取。我找不到我想要的数据(表中的球员名字，即"Claiborne，Morris")。当我使用：PlayerName = soup.find_all("table")没有球员的名字甚至在输出中</em

浏览 11提问于2016-07-23得票数 1

回答已采纳

1回答

使用Python从带有多行独立头的表单创建的特定网站表中抓取历史数据。自动化所需

、、、、

我正在尝试从这个网站做一些数据抓取：import requests url = 'http://

浏览 5提问于2015-02-17得票数 0

回答已采纳

1回答

使用BeautifulSoup找不到深度嵌套标记ID

、

我试图从中抓取NBA数据，但我遇到了BeautifulSoup抛出深度嵌套标记的问题。我试着用soup.find(id='opponent-stats-per_game')来抓取“对手每个游戏统计”表。然而，我得到了None的结果。我对使用BeautifulSoup进行网络抓取相当陌生。

浏览 1提问于2019-04-03得票数 0

回答已采纳

1回答

BeautifulSoup只提取顶层标记。

、、、、

我正在使用Python3.4中的BeautifulSoup进行一些网络抓取。现在，我在学习过程中遇到了一个问题:我试图从网页中获取一个表行，并且我使用find_all()来获取它们，但是在表中--有更多的表中有表行！如何在BeautifulSoup中只获得标签的顶级/一级通用或特定元素？# Retri

浏览 1提问于2016-06-19得票数 17

1回答

使用python抓取URL不变的多个表的最佳资源

、、

我想在有下一步链接的网页上抓取表格，但是当你点击这些下一步按钮时，URL不会改变。使用python (BeautifulSoup，请求)学习抓取这类表的最好/最简单的资源是什么？例如，我如何抓取上的表。

浏览 1提问于2017-11-15得票数 0

1回答

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

、、

我正在尝试创建一个for循环，一旦它到达抓取的页面中的最后一个search_result属性，它将重复该循环，但会使用新抓取的网页的数据。在for循环到达最后一个属性后，它将在网页上查找链接，并对新抓取的网页重复该循环。from bs4 import Beautiful

浏览 7提问于2019-08-16得票数 1

回答已采纳

1回答

BeautifulSoup抓取嵌套表

、、

我一直在尝试从一个使用大量表格的网站上抓取数据。我一直在研究美丽的汤文件，以及这里的堆叠溢出，但仍然迷失了。center"><br /></td> </table> </tr> 有相当多的表，

浏览 4提问于2015-05-05得票数 6

回答已采纳

3回答

无法使用BeautifulSoup抓取数据

、、、

我正在使用Selenium登录到网页，并获得网页进行抓取，我能够获得该页面。我已经在html中搜索了我想要抓取的表。table_devicesensortable">rawpage=driver.page_source #storing the webpage in variabletbody=souppage.find('table',

浏览 0提问于2018-02-21得票数 1

1回答

从Python网页中抓取多个表

、、、

我正试着从下面的网页上抓取多张表。但是，我的代码只得到第一个表，尽管所有的表都嵌套在相同的tr和td标记中。这是我的尝试： r = requests.get(url) soup = BeautifulSoup<

浏览 2提问于2018-01-01得票数 0

回答已采纳

2回答

从div标签中提取数据Python

、、

我正在尝试从一个网页中抓取数据，这个网页有一些嵌套在div标签中的数据。fe/12/olym/p/gid/26/grid/A/rid/9087/sid/6233/game.html'soup = BeautifulSoup如何从div标记中<

浏览 0提问于2013-05-29得票数 1

回答已采纳

1回答

将网页中的表格抓取到python中

、

我正在尝试从网页中抓取数据。在页面上有几个表，我感兴趣的是靠近顶部的前五个表(现在，未来，不完美，未来和条件)。 from bs4 import Beautifu

浏览 9提问于2021-01-19得票数 0

3回答

Python -抓取谷歌的简单方法，为给定的搜索下载前N个命中结果(整个.html文档)？

、、、

有没有一种简单的方法来抓取谷歌，并为给定的搜索写出前N个(比如说1000个) .html (或其他任何)文档的文本(只是文本)？举个例子，想象一下搜索短语“大灰狼”，只下载前1000个点击量中的文本--也就是说，实际上是从这1000个网页中下载文本(但只下载那些页面，而不是整个网站)。我假设这将使用urllib2库？如果有帮助的话，我会使用Python 3.1。

浏览 2提问于2011-03-16得票数 10

回答已采纳

2回答

使用漂亮的汤从网页中的url中抓取数据。Python

、、

我正在尝试从网页内的url中抓取数据(insta id和关注者计数)：，https://starngage.com/app/global/influencer/ranking/india url的元素id是：@priyankachopra 类似地，我想从同一个表中的所有链接中抓取数据有人能告诉我怎么做吗？import requests from bs4 import Bea

浏览 20提问于2021-07-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python web从asx抓取-无法获取公告表

Python BeautifulSoup从网页中抓取表

Python BeautifulSoup从网页中抓取表

当web在Python中搜索表时，返回一个空表。

如何抓取既包含纯文本又包含“双引号”文本的表数据？

优美汤对象不包含来自网页的完整表，而是抓取前100行。

美汤4在表格中查找文本

使用Python从带有多行独立头的表单创建的特定网站表中抓取历史数据。自动化所需

使用BeautifulSoup找不到深度嵌套标记ID

BeautifulSoup只提取顶层标记。

使用python抓取URL不变的多个表的最佳资源

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

BeautifulSoup抓取嵌套表

无法使用BeautifulSoup抓取数据

从Python网页中抓取多个表

从div标签中提取数据Python

将网页中的表格抓取到python中

Python -抓取谷歌的简单方法，为给定的搜索下载前N个命中结果(整个.html文档)？

使用漂亮的汤从网页中的url中抓取数据。Python

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐