BeautifulSoup Python Selenium -在抓取网站之前等待tweet加载_如何使用BeautifulSoup在python中从网站中未加载的选项卡中抓取表数据 - 腾讯云开发者社区

python、python-3.x、selenium、beautifulsoup

我试图抓取一个网站来提取tweet链接(特别是在这种情况下的DW )，但我无法获得任何数据，因为tweet不是立即加载的，所以请求在有时间加载之前执行。在使用这两个选项后，我尝试使用Selenium在本地加载网页，并让它有时间加载，但我似乎无法使其工作。我相信使用硒可以做到这一点。0"))) pass

浏览 18提问于2021-04-29得票数 1

回答已采纳

1回答

如何在点击更多按钮后抓取网站数据

python、selenium、web-scraping、beautifulsoup

我正在尝试使用BS4 + selenium学习web抓取。网站链接为 from selenium import webdriver from bs4 import BeautifulSoup</e

浏览 4提问于2017-06-20得票数 0

4回答

Bs4选择器:用美汤刮亚马逊

python、web-scraping、beautifulsoup

我试图刮一个网站，有链接到亚马逊与Python使用这些框架-硒，美丽的汤。这是针对第一个产品的，稍后我将对此进行迭代 from bs4 import BeautifulSoupimport time first_article.click()soup = Be

浏览 50提问于2018-06-08得票数 0

回答已采纳

1回答

使用Python对页面和浏览器扩展数据进行with抓取

python、html

我正在尝试获取网页的文本数据，就像它在我的浏览器上的样子一样。我的问题是，我还使用了一个网页的扩展，它的给定数据(由于它而显示的文本)也要被收集。我知道urllib，但它只收集正常的网页数据，而不是扩展生成的数据。那么，如何收集这些数据有什么帮助吗？另外，我想问的是，这是否可能？

浏览 12提问于2020-08-15得票数 0

1回答

为什么我的网络抓取没有返回任何东西？

python、web-scraping

我对python上的web抓取是个新手。我有问题，当我运行我的代码，返回是白色空白，但它不是错误。我只是做了与课程相同的代码，但它对我不起作用 import urllib.request def __urllib.request.urlopen(self.site) parser = 'html.parser' sp = Beautif

浏览 22提问于2020-08-21得票数 0

1回答

抓取网站时缺少HTML元素。Python

python、html、selenium、web-scraping、beautifulsoup

我正在尝试使用bs4和Selenium从网站中提取HREF。但是，当我使用Beautiful解析HTML时，我要查找的元素就会丢失。当我稍后尝试搜索它们时，我只会得到NoneType对象。

浏览 2提问于2020-11-16得票数 0

回答已采纳

2回答

使用Python抓取Javascript

javascript、python、xpath、web-scraping、beautifulsoup

我需要从以下网站抓取等待时间：我尝试过通过带有lmxml的XPath和带有BeautifulSoup的DOM进行抓取。有人告诉我，因为这些值没有加载到源代码中，所以它们是用Javascript呈现的。因此，我研究了用Python抓取JS元素。对我来说，Selenium看起来有点过头了，因为我不需要单击任何东西-内容加载，只是不是直接在我可以抓取的HTML中。PhantomJS需要用JS编写，我

浏览 2提问于2014-02-23得票数 0

1回答

如何在网站中直接查询数据，而不是等待加载抓取？

python、selenium、web-scraping、beautifulsoup

我正在抓取一个超市的页面，但它包含了JavaScript的一些部分，我必须等待(4秒)，因为网站必须查询一些数据并首先加载它才能完成超文本标记语言。我在Python中使用Beautifulsoup和Selenium来完成这项任务。from selenium import webdriverfrom bs4 i

浏览 23提问于2021-06-20得票数 1

回答已采纳

2回答

错误的NoSuchElementException导致基于硒的刮码失败。

python、html、selenium

我有一个Python代码，它废弃了不同的数据。例如，它从这个Website中删除了。NoSuchElementException-Encoding”：“标识”，“连接”：“关闭”，“内容-长度”：“95”，“内容-类型”：“应用程序/json”；charset=UTF-8"，“主机”：“127.0.0.1:40581”，“用户-代理”：“Pythonpost“：”{\“User\”User\“：\"link text\"，\”sessionId“：\"a7a441f0-0f6a-11e8-ad3a-6121f

浏览 1提问于2018-02-11得票数 1

回答已采纳

1回答

为什么我的Crawler会得到错误的HTML代码？

java、web-crawler

实际上，用jsoup库实现的爬虫代码可以工作，因为我的请求的结果是一些HTML代码，但是当我搜索一个明确写在网站上的单词时，没有找到它，因为一些div的来自于空的爬虫。然后我意识到，当您导航到网站并右键单击‘查看页面源’时，我得到了与相同的代码。当我将代码与进行比较时，右键单击“->”检查“”时，代码与“查看页面源”中的不同。

浏览 0提问于2019-09-12得票数 1

回答已采纳

1回答

单击selenium* python按钮后等待类加载值*

python、selenium

网站加载后，我成功地点击了一个按钮，这将在这个类中生成一些数字但不是立即，它会把它们一个接一个地放进去Selenium将立即获取放入类中的第一个值，但不等待添加其他值。在抓取它之前，可以等待它加载其中的所有值。下面是我用来抓取值的python</e

浏览 10提问于2020-05-27得票数 0

3回答

用于web抓取的Selenium与BeautifulSoup

javascript、python、selenium、beautifulsoup

我正在使用Python从一个网站上抓取内容。首先，我在Python上使用了BeautifulSoup和Mechanize，但我看到网站上有一个通过JavaScript创建内容的按钮，所以我决定使用Selenium。既然我可以通过像driver.find_element_by_xpath这样的方法使用Selenium查找元素并获取它们的内容，那么当我可以使用Selenium做任何事情时，还有什么理由使用Beau

浏览 1提问于2013-07-03得票数 53

回答已采纳

4回答

JavaScript和HTML的抓取

javascript、python、parsing、web-scraping、web-crawler

我正在做一个项目，其中我需要抓取几个网站，并从他们收集不同种类的信息。信息，如文字，链接，图像等。有什么办法吗？

浏览 8提问于2014-03-31得票数 5

回答已采纳

1回答

为什么我不能访问一个网站的完整响应代码？

python-3.x、web-scraping、python-requests、xmlhttprequest

没有来自API的客户端HTML (XHR)可以利用，因此，我决定在刮的网站上，但是，在我从请求中得到的响应中看不到HTML代码的部分。下面是我感兴趣的网站的一部分：然后，我提出了这个get请求，要求用BS刮它。termin/day/'r = requests.get(url,headers=headers,cookies=cd)然而，在答复中

浏览 0提问于2021-05-30得票数 0

回答已采纳

4回答

您如何使用EC.presence_of_element_located((By.ID，“myDynamicElement”)，除非指定类而不是ID

python、selenium、selenium-webdriver、webdriverwait、expected-condition

我试图使用Python来抓取一个网站，通过使用嵌入的javascript文件将数据呈现为HTML的响应来动态加载它的HTML。因此，如果仅使用BeautifulSoup，我将无法检索所需的数据，因为我的程序将在Javascript加载数据之前对其进行抓取。因此，我正在将selenium库集成到我的代码中，让我的程序等待某个元素被找到，然后它才会抓取网站。

浏览 2提问于2019-07-29得票数 18

回答已采纳

2回答

如何在Python中抓取动态加载的JavaScript页面？

python

底线前面:我想刮这个网站的工作：，但我一直得到的javascript基页。如果您检查页面，您可以看到作业列在h3标记中，但不管我做什么，作业都不会弹出。q=bossier%20city"soup = BeautifulSoup(html_text, "html.parser")for job in soup.find_all('h3'):

浏览 5提问于2021-10-17得票数 1

1回答

python selenium网络抓取。` Mistake `循环中的错误。如何使代码等待页面加载并重试

python、selenium、selenium-webdriver、web-scraping、wait

我正在尝试使用python中的selenium从一个JavaScript网站上抓取一个表。该流程是使用selenium驱动程序通过python提交表单，然后检索加载的页面。由于网站速度较慢，有时为上一次选择而加载的表会保留在页面中，代码会抓取错误的数据，而不是等待新的表加载。我想要确保我抓取的表与我从下拉列表中选择的表一致。由于页面加载可能需要5

浏览 14提问于2021-03-03得票数 0

回答已采纳

1回答

基于Javascript的网页抓取登录

javascript、python、selenium、mechanize

我正在尝试为sbrodds.com编写一个抓取引擎。不幸的是，我需要登录才能获得正确的数据。我研究了机械化和selenium，但遗憾的是，我在python和web抓取方面做得很差，并且不了解如何使用它们。以下是登录框的Chrome inspect elements页面的屏幕截图：有人可以提供建议，我应该使用什么技术来执行登录到这个网站内部的Python代码？最终的目标是将登录页面的数据加载到BeautifulSoup中。

浏览 3提问于2015-12-10得票数 1

1回答

Selenium等待HTML元素更改

python、html、selenium、selenium-webdriver

我正试图从一个网站上刮取预订数据。进入现场后，我必须：将默认日期范围(首先，站点显示默认日期范围的预订数据)更改为我要搜索的的日期范围，单击“刷新”按钮等待网站更新页面上显示的结果。使用Selenium、Python和BeautifulSoup，当我执行Selenium命令更新日期范围的字段并单击“刷新”按钮时，当代码到达我使用BeautifulSoup提取HTML数据的行时，将提取默认网站日期范围的默认预订数据观察到，站点移动得太

浏览 3提问于2021-08-04得票数 1

回答已采纳

2回答

如何正确地刮除基于JavaScript的站点？

python、python-3.x、selenium、geckodriver

from bs4 import BeautifulSoupfrom selenium import webdriver r = requests.get(url)print(BeautifulSoup我对此做

浏览 0提问于2018-11-20得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云