使用BeautifulSoup和Selenium实现Jquery表的网络抓取

文章/答案/技术大牛

发布

1回答

、、

我正在尝试从一个网站的表中获取数据，这个网站每天都会从这个网站的http://mananciais.sabesp.com.br/HistoricoSistemas?SistemaId=0更新。我正在学习BeautifulSoup和Selenium，并尝试使用这些包访问数据。然而，该网站的源代码没有透露表格中的数据。据我所知，该网站是使用jQuery网格构建的<

浏览 14提问于2020-03-24得票数 0

回答已采纳

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

、

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动<

浏览 0提问于2014-12-29得票数 0

回答已采纳

2回答

使用BeautifulSoup调用JAVA函数

、、

我正在尝试从下面的网站中搜集一些数据特别是，我想要抓取花名册表格中的数据在名为" csv“的表的标题处有一个红色链接，如果您单击它，页面将以csv格式加载表信息。_trackEvent('Tool','Action','Embed'); }

浏览 0提问于2013-11-24得票数 0

1回答

如何使用Python从Jquery表中抓取

、、、、

我正试着从这个中抓取前十项。我正在使用Python Selenium/BeautifulSoup。该表似乎正在使用jquery脚本进行加载。我是诚实的困惑，从哪里开始，因为教程和指南是不匹配的这个网站。他们中的很多人说，检查元素中的Network来查找XHR数据。然而，这个网站在XHR选项卡中没有任何值加载，而是在JS选项卡中。我找到了URl https:/&

浏览 5提问于2022-09-13得票数 1

回答已采纳

1回答

用python抓取出现在单击中的表

、、、、

我想从这个中抓取信息。我对网络抓取很陌生，并且尝试过使用BeautifulSoup来做这件事。换句话说:我直接从页面中抓取的HTML代码不包括我想要获得的表。我对我的下一步感到有点困惑:我是应该使用selenium之类的东西，还是应该以更

浏览 1提问于2017-09-10得票数 1

回答已采纳

2回答

如何在python中实现网络抓取

、、、、

我对python刚开始在python上抓取。我必须从这个中抓取数据任何人都可以告诉我如何处理这个问题。是制造这种刮板的最好方法。我是否必须使用sele

浏览 9提问于2017-10-09得票数 0

回答已采纳

3回答

硒自动化可以与BS4一起使用吗？

、、、、

我正在使用selenium进行自动化和抓取。现在我发现有些网站的速度太慢了。如果我使用beautifulSoup，那么我可以更快地抓取它们，但自动化却无法完成。有什么地方我可以自动化网站(按钮，点击，事件等)还能在beautifulSoup上用它刮网站吗？任何帮助都将不胜感激..。

浏览 2提问于2020-04-09得票数 1

回答已采纳

1回答

为什么我的网络抓取没有返回任何东西？

、

我对python上的web抓取是个新手。我有问题，当我运行我的代码，返回是白色空白，但它不是错误。我只是做了与课程相同的代码，但它对我不起作用 import urllib.request def __urllib.request.urlopen(self.site) parser = 'html.parser'

浏览 22提问于2020-08-21得票数 0

2回答

使用Python在youtube中搜索打开第一个视频

、、、

我试了试，但不知道如何打开第一个视频。此代码在浏览器中打开搜索。 words = search.split() link += i + "+" webbrowser.open_new(link[:-1])

浏览 1提问于2020-04-10得票数 3

1回答

如何让django项目点击url的特定标签

、

我正在开发一个使用python和Django的网页抓取代码。我已经提供了所需的url，并且已经获取了数据。但是在url上有一个标签，上面写着“显示更多结果”。如何让我Django项目点击url上的“显示更多结果”选项卡并立即获取新的结果。我已经使用Beautiful Soup库来进行web抓取/

浏览 16提问于2021-04-15得票数 0

2回答

美汤和硒不能刮网站内容

、、

所以我试着抓取网页的内容。最初我尝试使用BeautifulSoup，但是我无法获取内容，因为内容是动态加载的。在四处阅读之后，我试着根据人们的建议使用Selenium，但是在这样做之后，我仍然无法获取内容。刮出来的东西跟美汤一样。是不是就不能抓取这个网页的内容呢？(url) soup = bs(r.content, 'lxml') return so

浏览 35提问于2021-08-11得票数 0

回答已采纳

1回答

为什么我的Selenium代码只返回我所请求数据的一半

、、、

最近，我写了一个selenium网络抓取器，旨在提取包含美国所有总统选举数据的表中的所有信息。表格在维基百科网站上。这是我的代码。from selenium import webdriver from bs4 import

浏览 2提问于2020-11-21得票数 0

1回答

BeautifulSoup find.all() web抓取返回空

、、、、

当尝试抓取这个网站的多个页面时，我得不到任何内容。我通常会检查以确保我创建的所有列表都具有相同的长度，但返回的都是len = 0。我也用过类似的代码来抓取其他网站，那么为什么这个代码不能正常工作呢？我尝试过一些解决方案，但没有达到我的目的：this answer中建议的requests.Session()解决方案，.json as suggested here. import requestsfrom

浏览 14提问于2020-11-28得票数 0

回答已采纳

1回答

selenium Web驱动程序不返回Wikipedia表

、、、、

我正在努力搜集一张表，里面有美国所有总统选举的结果。为此，我想使用selenium。我相信我要抓取的表是由客户端脚本(javescript)执行的，因此在抓取site.Note之前，我试图注意某个特定标记的存在:我尝试过用漂亮的汤直接抓取页面，但总是得到“无”的响应。from selenium import webdriver from bs4

浏览 16提问于2020-11-21得票数 1

回答已采纳

1回答

用Selenium返回空DataFrame从网站中抓取表

、、、、

我刚开始学习网络抓取，并尝试从的'Holdings‘表中提取数据from selenium import webdriver from bs4 import BeautifulSoup

浏览 3提问于2021-12-22得票数 1

回答已采纳

1回答

用漂亮汤将硒html表格放入熊猫数据

、、

我已经成功地使用selenium来抓取一个html表，它需要在抓取之前点击按钮。不过，我很难把这个解析成熊猫的数据。与URL一样，dataframe应该有5列和大约30行。from selenium import webdriver from bs4 import Bea

浏览 1提问于2020-04-03得票数 2

回答已采纳

1回答

从flashscore.com抓取分数

、、、

我用Python构建了一个机器人来在flashscore.com上抓取分数，但是从站点中抓取的数据加载到它的列表框中非常缓慢。我对selenium的速度很好奇，所以我做了一个按钮来打印所有的文本，结果显示速度很快，所以一定是if elif块减慢了程序的速度。from tkinter import *import threading lblSt

浏览 0提问于2015-05-09得票数 8

2回答

使用python抓取动态javascript内容网页

、、、、

我正在尝试使用Python抓取这个网站：'‘。但是，requests + BS4只给了我HTML格式的页面源代码。我假设这是因为内容是动态的。因此，我尝试了Selenium + BS4来抓取网站，但我仍然只能抓取页面源代码。from selenium.webdriver import Firefox from bs4 import Beautifu

浏览 4提问于2020-02-02得票数 0

2回答

有没有办法使用BeautifulSoup/requests抓取搜索框，然后进行搜索和刷新？

、、、

我正在努力使一个程序，可以在大多数网站上，如YouTube，ESPN，我的大学课程表等搜索请求… 我已经在网上寻找了各种解决方案，但其中许多都是简单地在你得到的url的末尾添加你的搜索查询，但这似乎并不适用于所有的网站，其中一些网站在你手动搜索时不会更新它们的URL，而许多其他网站可能会给每个URL一个唯一的'id‘。可以从任何网站上抓取搜索栏，然后指定搜索查询并输入它吗？有没有这样的函数呢？

浏览 25提问于2019-05-10得票数 0

回答已采纳

1回答

使用Python和BeautifulSoup实现网络抓取表格

、、

我正在学习如何使用Python进行网络抓取，因为我还是个新手。现在，我试图从这个网站https://theanalyst.com/na/2021/06/euro-2020-player-stats上获取2020年欧洲杯的统计数据。在运行我的初始代码(见下文)以从网页收集html之后，我找不到table标签及其data-table类。当我检查网站时，我可以看到表及其数据表，但当我打印出page_soup时，它不显

浏览 33提问于2021-07-16得票数 1

点击加载更多