用Selenium和BeautifulSoup4抓取动态加载的Href属性_用BeautifulSoup和Selenium从动态网页抓取urls的问题 - 腾讯云开发者社区

python、python-3.x、selenium、web-scraping、beautifulsoup

我尝试用Selenium和BeautifulSoup4抓取动态加载的href属性。当我查看-source网站时，href属性是空的，但当我单击inspect元素时，href属性将有一个链接。意味着href属性是动态加载的。如何提取该链接？我正在尝试以下代码 def Scrape_Udemy(): driver.get('https://couponscorpion.com/marketing/complete-guide-to-pinterest-pinterest-growth-2020/') content = driver.page_source

浏览 42提问于2020-08-09得票数 0

回答已采纳

1回答

用beautifulsoup4从天才网站抓取评论

python、html、web-scraping、beautifulsoup、expand

我想问一下，在您看来，是否有可能用beautifulsoup4刮掉genius.com的评论。我问这个问题是因为当我用bs4抓取页面时，我找不到注释的部分，因为它们在一个可扩展的容器后面。如果我从浏览器中查看页面的html，即使我没有点击“展开”按钮，也可以看到注释，但是当我用bs4抓取时，我在html源代码中找不到它们。我怎样才能解决这个问题？有一种方法可以用bs4刮掉评论吗？还是我应该用硒？(我想避免使用selenium，因为我必须刮掉很多数据，而且使用selenium，这可能太慢了)。

浏览 2提问于2021-12-15得票数 -1

1回答

将javascript代码注入带有javascript和casper.js的on click事件中

javascript、onclick、screen-scraping、casperjs

我在尝试使用python (selenium / requests和机械化)在页面上加载一些动态内容之后才开始使用casperjs来抓取页面。因为这很难做，或者用selenium做得很慢，所以建议我转到Casper (它需要幻影)。我想知道的一件事(我对javascript非常陌生)是关于javascript onclick事件的。默认情况下，我要刮的页面显示每页10个名称，在底部有显示(5)或显示(100)的选项。在深入研究这段代码并使用firebug检查它之后，我想知道是否有可能将onclick=loaditems(100)更改为类似于.onclick=loaditems(Load

浏览 1提问于2014-05-20得票数 0

回答已采纳

3回答

Python漂亮的汤，在网站上刮桌子

python、web-scraping

我最近开始对通过python库beautifulsoup4进行网络抓取感兴趣，我的目标是获取有关新冠肺炎案例的数据(在摩洛哥是一个良好的开端)；我的信息所在的网站是："“有一个包含所有信息的大表，我尝试这样做： U = 'https://www.worldometers.info/coronavirus/' response = requests.get(U) html_soup = BeautifulSoup(response.text, 'html.parser') info = html_soup.find_all('tr', cl

浏览 0提问于2020-10-16得票数 0

回答已采纳

2回答

什么是最好的方法来刮这个网站？(不是硒)

python、web-scraping

开始之前，TLDR位于底部因此，我试图刮的洪流磁铁链接和他们的洪流标题名称，基于用户输入的搜索。我已经知道了如何使用BeautifulSoup和通过以下代码进行请求： from bs4 import BeautifulSoup import requests import re query = input("Input a search: ") link = 'https://rarbgmirror.com/torrents.php?search=' + query magnets = [] titles = [] try: request = r

浏览 6提问于2020-03-27得票数 1

回答已采纳

1回答

如何使用scrapy或selenium抓取动态页面？

javascript、python、html、parsing、screen-scraping

我正在尝试抓取web动态页面，但使用scrapy时，我不能检索所有信息，因为我想要的信息是动态的。我试着使用Selenium，但与Scrapy不同的是，你不能指定头部，网站阻止了我。(我不能说出这个网站的名字，因为抓取是非法的，但它是一个著名的旅游元搜索引擎...)。我有一个带有验证码解算器的页面(用脚本很难解决重新验证码)，因为网站会检测到我是机器人。我想拥有所有的动态信息，并有权访问网站，但不可能与selenium和scrapy没有给我所有我想要的信息，我认为这是因为当scrapy阅读它时页面没有完全加载。

浏览 23提问于2019-06-13得票数 0

1回答

针对动态网站的Selenium出现VBA问题，无法关闭弹出窗口

excel、vba、selenium

我试着为一个被动态加载的网站做网页抓取，我今天试着关闭弹出图标或者点击“不谢谢”，但是它不起作用，我在屏幕截图中显示错误。我需要获取产品名称，新的和旧的价格和他们的href图像URL在excel中。 Option Explicit Private cd As Selenium.ChromeDriver Sub Findingelement() Set cd = New Selenium.ChromeDriver cd.Start cd.Get "https://www.westelm.com/shop/furniture/all-living-room/?cm_ty

浏览 3提问于2022-10-16得票数 1

回答已采纳

1回答

抓取动态加载的网站

python、curl、web-scraping、scrapy

当我使用cURL加载页面"“，或者尝试抓取页面时，响应主体是空的。显然，该页面是使用JavaScript动态加载的。仍然加载呈现的源代码的选项是什么？我尝试通过Firefox驱动程序使用Selenium，但这会使我的CPU使用率在15秒内达到100 %。我猜这不是一个可行的选择，特别是对于需要使用Selenium抓取100,000+页面的大型项目。此外，为了理解动态加载页面的概念。这些是如何工作的？需要什么代码才能使它们工作？

浏览 0提问于2018-04-12得票数 2

1回答

BeautifulSoup有时无法获取所有页面源代码

selenium、beautifulsoup、scrapy

我正在使用Selenium和beautifulSoup4进行抓取。问题是我的脚本有时‘result’是空的，有时不是。我不明白为什么它有时不能工作。是网站的安全问题还是RAM的问题?我不知道 page_source = BeautifulSoup(driver.page_source, "html.parser") result= page_source.find_all('div',{'class':'pv-profile-section-pager ember-view'})

浏览 4提问于2021-06-09得票数 1

2回答

如何从Google搜索结果中抓取所有标题和链接(Python + Selenium)

python、selenium、selenium-webdriver

我正在尝试使用selenium (Python)从Google搜索结果中抓取标题和链接。我的问题是我只能抓取前4个结果，而不能抓取其他6个结果。我的感觉是，这可能与网页的加载时间有关，但我不确定。我一直在考虑实现wait.until(EC.visibility_of_element_located语句，但还没有找到一种方法来实现它。有人在这个问题上有经验吗？非常感谢！代码： import urllib from selenium import webdriver from selenium.webdriver.chrome.options import Options from selen

浏览 0提问于2021-05-21得票数 1

2回答

如何在随机生成的href中刮取一些文本- selenium

selenium、web-scraping

我正在使用selenium抓取一个动态页面，在下面的示例中，我在获取文本1和text 2时遇到了困难： <span class="class number 1"> text 1 <a href="link 1"> text 2 </a> </span> 如果跨度为div，也会发生同样的情况。我设法用这个python行获得了文本1。 var = driver.find_element(By.CLASS_NAME, "class number 1").text" 但是，要获得文本2，因为链接

浏览 1提问于2022-10-28得票数 -1

回答已采纳

1回答

如何在Python中抓取具有动态ID的文本变量

python、selenium、selenium-webdriver

目前，我正试图在整个网页中获取一些文本数据。一开始，我抓取所有的网页，然后慢慢地在网页中筛选，从每一页抓取我需要的数据。例如，由于动态ID的原因，我在抓取诸如平方英尺或邻居之类的项目时遇到了困难。我通过XPath或CSS选择器看到的许多例子都涉及到搜索文本，但在我试图抓取的每一页上都会发生变化。有什么办法能捕捉到这片土地或社区吗？ from bs4 import BeautifulSoup from selenium import webdriver as wd from selenium.common.exceptions import StaleElementReferenceExcep

浏览 3提问于2019-02-05得票数 0

1回答

如何在python中使用Qt模拟链接的点击事件

python、pyqt、web-crawler

我想屏幕抓取有多个页面的网站。这些页面在不更改URL的情况下动态加载。我不想使用Selenium，因为每次你需要content.Does qt的时候它都会打开浏览器，如果不是这样，我怎么用QT模拟点击事件呢？附言:谷歌提供了模糊的回答，提前感谢

浏览 1提问于2013-01-28得票数 0

1回答

硒和美丽的汤无法在网页上找到视频标签

python、html、selenium、web-scraping、beautifulsoup

我需要一个网络抓取专家的帮助。我试图从这个网站的视频标签中获得src。当我试图使用selenium或beautifulsoup4来捕获它时，它似乎不存在。find_elements返回一个空列表。这个“//*@id=”player“/div2 2/div2 3/video”是safari中检查元素中该元素的XPATH。我可以在检查网页时看到它，但我不能刮它。我也尝试过使用find_element("src")方法，但没有成功。它抛出一个异常，表示没有找到这样的元素。这是我的密码： from selenium import webdriver from selenium.web

浏览 1提问于2022-11-18得票数 0

2回答

使用BS4或Selenium从finishline.com中抓取网页

python、selenium、web-scraping、beautifulsoup

我正在尝试使用Selenium或BeautifulSoup4从https://www.finishline.com中抓取数据。到目前为止，我还没有成功，所以我向Stackoverflow寻求帮助--希望有人知道如何绕过他们的抓取保护。我试过使用Beautifulthon4和Selenium。下面是一些简单的例子。在我的主程序中使用的常规导入： import requests import csv import io import os import re from selenium import webdriver from selenium.webdriver.common.keys

浏览 34提问于2019-04-12得票数 4

回答已采纳

1回答

如何在python语言中使用selenium和chromedriver抓取此页面？

screen-scraping

我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时，chromedriver成功地输入了url，但无法加载页面，显示了一个空白页面。我尝试将目标网站切换到google.com，但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和chromedriver从网站抓取数据呢？我是一个Python初学者，感谢您的帮助。下面是我的简单代码： from selenium import webdriver my_driver_path = r"C:\python chrome driv

浏览 0提问于2020-05-29得票数 0

2回答

使用Python抓取时处理Cookies

python、cookies、beautifulsoup、python-requests

我正试着从大学网站上的职业网页上抓取链接，而我却得到了这个错误。 urllib.error.HTTPError: HTTP 302: HTTP返回一个重定向错误，这将导致无限循环。最后30x错误消息是:临时移动我认为这是因为该网站有一个会话cookie。在阅读了一段时间之后，似乎有很多方法可以解决这个问题(请求、http.cookiejar、Selenium/PhantomJ)，但我不知道如何将这些解决方案合并到我的刮取程序中。这是我的刮擦程序。它是用Python3.6与BeautifulSoup4编写的。 from bs4 import BeautifulSoup from ur

浏览 5提问于2017-03-21得票数 0

1回答

在iframe中从动态加载表中抓取Python Selenium超时值异常

python、selenium、xpath、iframe、css-selectors

我正在尝试使用Selenium从动态加载的表中抓取。因为它是由javascript动态加载的，所以我需要使用Webdriverwait，但是我一直在使用超时异常错误我的代码如下： from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.supp

浏览 3提问于2020-12-21得票数 3

回答已采纳

10回答

使用selenium从页面中保存图像

c#、selenium、download、selenium-chromedriver

我正在使用Selenium & Google驱动程序编程打开页面。在每一页上都有一个动态生成的图像，我想下载。目前，我正在等待页面完成加载，然后获取图像URL并使用System.Net.WebClient下载它。这很好，除非我下载了两次--一次在浏览器中，一次用WebClient。问题是，每幅图像大约是15 is，下载两次的速度很快。那么--能直接从谷歌Chrome抓取图像吗？

浏览 16提问于2013-08-25得票数 7

回答已采纳

1回答

使用Selenium w/ Python从angular.js检索动态加载的值

python、angularjs、selenium

我试图从angular.js中动态加载的在线表单中获取一个值。我试图获取的值包含在以下元素中： <input type="text" ng-disabled="jMrId" class="form-control ng-pristine ng-valid" id="work-email" name="work-email" ng-model="mR.jWorkEmail"

浏览 0提问于2020-10-08得票数 0

1回答

机械化python库是否能够等到javascript动态加载内容后再获取页面内容？

javascript、python、dynamic

我想刮一个网站，动态加载内容使用javascript。我想抓取javascript加载的内容。我知道有一些方法可以让pyqt4加载(ghost或ipython )，但是我还没能通过我的ipython安装来安装和识别javascript。因此，由于我使用的是请求(并使用了机械化)，所以在javascript完成动态加载页面内容(即div、img、href、链接等)之后，请求是否具有抓取页面内容的能力？

浏览 1提问于2014-05-19得票数 1

1回答

如何使用Selenium有效地从动态网站中删除数据？

python、selenium

我想从网站上抓取数据。我正在尝试访问每个博客，然后点击链接，在给定博客的详细信息页上刮取详细信息。我尝试使用BeautifulSoup，但它没有返回任何数据，并且我意识到数据是用JavaScript动态加载的。然后我尝试使用Selenium来刮掉它，这是我想出的代码： from selenium import webdriver from selenium.webdriver.chrome.service import Service service = Service('/usr/bin/chromedrivers') service.start() drive

浏览 7提问于2022-07-20得票数 0

回答已采纳

1回答

如何将特定的html属性拉到变量中

python、html、selenium、beautifulsoup

所以这个标题可能用词很糟糕，但我不知道该怎么说。因此，我请求帮助使用beautifulsoup4来抓取数据，而且有人帮助我解决问题。 import requests from bs4 import BeautifulSoup import re #NJII params = { 'action': 'vc_get_vc_grid_data', 'tag': 'vc_basic_grid', 'data[page_id]': 26, 'data[shortcode_id]&

浏览 1提问于2018-11-06得票数 1

回答已采纳

1回答

从HTML iframe检索数据

python、selenium、web-scraping、iframe、beautifulsoup

我一直试图使用Selenium和BeautifulSoup4访问BeautifulSoup4中的数据，但没有成功。我想检索中显示的数据。你有什么意见建议？

浏览 2提问于2021-10-29得票数 0

回答已采纳

3回答

过时；元素不再附加到DOM，它不在当前框架上下文中，或者文档已被刷新。

python、selenium、selenium-webdriver、python-3.8

所以im使用selenium抓取链接。我可以用循环打印我的链接，但是我无法导航到它们，因为我得到了以下错误： selenium.common.exceptions.StaleElementReferenceException:消息:元素引用是陈旧的；要么元素不再附加到DOM中，要么不在当前框架上下文中，要么文档已经刷新了。 from selenium import webdriver driver = webdriver.Firefox() driver.get("https://www.famousgraphicdesigners.org/") links = driv

浏览 6提问于2019-11-24得票数 6

1回答

使用Scrapy和selenium抓取网站

python、selenium、scrapy

我打算用Scrapy在上抓取html内容。但是，由于站点的Javascript使用和#，我想我也必须使用Selenium (Python)。我想写我自己的代码，但我是编程新手，所以我想我需要帮助；我想先进入ntry.com，然后单击一个名为的锚点转到 <body> <div id="wrap"> <div id="container"> <div id="content"> <a href="/sco

浏览 2提问于2016-11-26得票数 0

1回答

如何抓取和提取链接到n级，并再次抓取数据并将其映射到python中的输出？

python、web-scraping、web-crawler

我正在学习python中的网络爬行和抓取。我想要抓取数据，在一个网站上有链接，而在这些链接里面有更多的链接。所以我想抓取数据直到预定义的级别n。这是我的基本代码 import requests from selenium import webdriver from requests_ntlm import HttpNtlmAuth from selenium import webdriver from selenium.webdriver.chrome.options import Options import time from bs4 import BeautifulSoup from

浏览 40提问于2019-12-17得票数 0

2回答

只在使用Python请求加载带有延迟的数据之后才刮html？

python、python-3.x、web-scraping、beautifulsoup、python-requests

我正在尝试学习使用python进行数据抓取，并且一直在使用请求和BeautifulSoup4库。它适用于普通的html网站。但是当我试图从那些延迟加载数据的网站获取一些数据时，我发现我得到了一个空值。一个例子就是 from bs4 import BeautifulSoup from operator import itemgetter from selenium import webdriver url = "https://www.example.com/;1" browser = webdriver.PhantomJS() browser.get(url) html = b

浏览 4提问于2017-10-04得票数 1

回答已采纳

2回答

在web服务器上使用java内容的抓取

python、scrapy、web-crawler

我想从一个显然使用javascript生成表的站点(这个站点是oddsportal.com)中抓取内容。我看到Scrapy无法加载动态内容，我阅读selenium可以处理它，但我计划使用web服务器。有什么方法可以解析这个站点或获取动态请求并使用scrapy解析它吗？例如，我想从这个页面导入完整的表，包括标题、匹配名和赔率。

浏览 3提问于2016-01-28得票数 1

回答已采纳

1回答

安装BeautifulSoup4

python、beautifulsoup、jupyter

我在安装BeautifulSoup4时遇到了问题。这是我在木星笔记本中用来导入漂亮汤的代码。 from selenium import webdriver import beautifulsoup4 import pandas as pd --------------------------------------------------------------------------- ModuleNotFoundError Traceback (most recent call last) Cell In [12], line 2

浏览 7提问于2022-11-30得票数 -1

回答已采纳

2回答

如何在动态创建的列表中查找字符串

javascript、jquery、load

在加载页面时，我进行数据库调用(通过ajax / php)以获取动态列表。列表显示正常，如下所示： <ul id="menu"> <li><a href="#page-bla">bla</a></li> <li><a href="#page-bla2">bla2</a></li> <li><a href="#page-bla3">bla3</a></li> </ul>

浏览 2提问于2013-06-19得票数 1

1回答

允许用户直接从Python中的URL中选择网页元素

python、selenium、selenium-webdriver、css-selectors、element

我一直试图找到一种方法，允许用户在Python的网页上选择一个元素。在下面的代码中，您可以看到我已经预定义了一个元素。我想要的是用户能够悬停在网页上的元素上，然后单击它，然后返回一个值给python。与铬中的元素选择器非常相似。这个是可能的吗？任何想法 element = f"#pdp__select-size > li:nth-child({nth}) > button" (ps我已经导入了BeautifulSoup4和Selenium来帮助抓取的网页) 谢谢金吉

浏览 5提问于2021-11-16得票数 0

3回答

使用python+beautifulSoup4从动态图中抓取数据

python、graph、web-scraping、beautifulsoup、python-requests

我需要实现一个数据抓取任务，并从动态图中提取数据。该图表随时间更新，类似于您查看公司股票的图表时会发现的情况。我正在使用python中的请求和beautifulsoup4库，但我只知道如何刮取文本和链接数据。我似乎不知道如何将图形的值输入csv文件所讨论的图表可在- 中找到。

浏览 3提问于2014-11-12得票数 1

回答已采纳

1回答

使用Python只在数据加载延迟后才通过迭代来刮表？

python、selenium、web-scraping、beautifulsoup、python-requests

我正在尝试使用python (请求和BeautifulSoup4库以及Selenium)来抓取数据。当我试图从网站中获取一些数据时，数据在延迟后加载，它返回一个空值。我明白，对于这个任务，我必须使用WebDriverWait。 import requests from bs4 import BeautifulSoup # selenium imports from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import

浏览 0提问于2018-06-24得票数 2

回答已采纳

1回答

用硒擦伤

python、selenium、scrapy

我正试图从网站中抓取所有录制的事件表。我使用的是刮擦蜘蛛，但是由于它是动态加载的，所以不可能得到该表。我试图使用selenium，但是没有结果，没有加载表，我得到了相同的静态html页面。任何帮助都将不胜感激。

浏览 1提问于2017-10-25得票数 0

回答已采纳

1回答

我们如何自动化真正的浏览器，而不是使用selenium浏览器实例

selenium、selenium-webdriver、web-scraping、browser、automation

我正在尝试抓取一个网站，但是它没有加载selenium。当我在我的“真正的”chrome浏览器中浏览这个网站时，一切都很正常。有没有什么方法可以用我的真正浏览器和python来自动化东西，而不是使用selenium？谢谢

浏览 21提问于2021-03-24得票数 0

回答已采纳

1回答

xbmc/kodi python使用BeautifulSoup刮取数据

python、beautifulsoup、xbmc

我想编辑一个使用re.compile来抓取数据的Kodi插件，并让它使用BeautifulSoup4。原始代码如下： import urllib, urllib2, re, sys, xbmcplugin, xbmcgui link = read_url(url) match = re.compile('<a class="frame[^"]*"' ' href="(http://somelink.com/section/[^"]+)" '

浏览 6提问于2016-03-22得票数 1

回答已采纳

1回答

用Python和Selenium从标记中获取文本

python、selenium、selenium-webdriver、web-scraping、xpath

我一直试图用Python和Selenium抓取一个网页，结果遇到了这个问题。基本上，我正在抓取的网页在带有分页的表中显示信息，所以我想从所有页面中获取信息。当我在一个不是最后一页的页面(本例中为第2页)时，这是分页系统的HTML： <span class="pagelinks"> " [" <a href="?page=1">First</a> "/" <a href="?page=2">Previous</a> "]

浏览 4提问于2022-11-10得票数 1

回答已采纳

1回答

使用selenium解析网页时的表单、输入问题

python、selenium、input、beautifulsoup

我正在使用selenium和beautifulsoup4解析网页，但我在解析特定网页时遇到了问题。当我实际查看页面上的html源代码，并使用selenium或bs4进行解析时，我得到了不同的html源代码页面。区别在于形式和输入的存在。当我解析该页面时，我得到的html是 <form action="" method="post" name="fmove"> <input name="goAction" style="display:none" type="submit"/&g

浏览 12提问于2017-07-22得票数 1

1回答

无法在python中找到使用selenium的链接？

python、html、selenium、web-scraping、beautifulsoup

我正在使用selenium抓取一个网页。我首先找到我想要的链接，然后点击并下载(链接是pdf)。有时我可以这样做，但有时selenium说没有找到链接。我认为这是由于页面加载不正确所致。对此我能做些什么，我是否在正确的方向上？这是我以前的代码： for b in source_code_2.find_all('a', href=True): if b.has_attr("title"): if(b['title']=='Click here to download'): urlli

浏览 3提问于2015-10-16得票数 1

回答已采纳

1回答

刮取多个页面的动态DataTable但相同的URL

python、selenium、beautifulsoup、datatables、screen-scraping

我有使用C的经验，我开始接触Python，主要是为了好玩。我想在这里刮一下这个页面，。由于具有我感兴趣的内容的表是在连接到页面后动态创建的，所以我使用：在browserBeautiful 4中加载页面，以抓取加载的数据目前，我能够抓取前25个条目中所有感兴趣的字段，这些条目一旦连接到页面就会加载。我可以在一页中有多达100个条目，但总共有1045个条目，它们在不同的页面中被分割。问题是，对于所有页面，url都是相同的，并且表的内容在运行时被动态加载。我想要做的是找到一种方法，能够抓取所有的条目，也就是1045。通过互联网阅读，我知道我应该发送一个正确的帖子请求(我还发现他们从我的代码中检索

浏览 3提问于2020-11-12得票数 1

回答已采纳

2回答

用python抓取动态加载的网站

javascript、python、web-scraping、beautifulsoup、pyqt5

我刚开始抓取动态加载的网站，我被困在试图抓取这个网站的团队名称和赔率。我用PyQt5试过了，就像这篇文章里说的那样 class Page(QWebEnginePage): def __init__(self, url): self.app = QApplication(sys.argv) QWebEnginePage.__init__(self) self.html = '' self.loadFinished.connect(self._on_load_finished) self

浏览 0提问于2019-12-13得票数 0

1回答

如何在点击按钮后抓取数据

python-3.x、web-scraping、beautifulsoup

我试着用漂亮的汤从网站上抓取数据，但要抓取所有内容，我必须点击按钮 <button class="show-more">view all 102 items</button> 加载每一项。我听说可以用selenium来完成，但这意味着我必须用脚本打开浏览器，然后抓取数据。有没有其他方法来解决这个问题。

浏览 16提问于2019-06-10得票数 0

2回答

使用重复类在Selenium + Python中查找元素

python、selenium、web-scraping、selenium-chromedriver

我正在使用Selenium + Python在Battlefy页面上抓取匹配结果，以便稍后操作并进入数据库。我正在尝试使用Selenium抓取团队的名称和结果，因为动态加载JS需要我使用无头浏览器。但是，我尝试使用类名获取每个大学的文本，但是使用Selenium的find_elements_by_class_name方法似乎行不通。网页：当前代码： >>> chrome_path = r"C:\Users\...\chromedriver.exe" >>> driver = webdriver.Chrome(chrome_path) &g

浏览 0提问于2020-02-15得票数 2

1回答

如何查找重复的JS元素BeautifulSoup Python

javascript、python、selenium、web-scraping、beautifulsoup

html = <span class="title"> <a href="VIDEO HREF" title="title" class="js-pop">title text</a>" </span> 代码= class Client(QWebPage): def __init__(self, url): self.app = QApplication(sys.argv) QWebPage.__init__(self)

浏览 18提问于2018-06-04得票数 2

回答已采纳

1回答

如何加快硒的刮除(多处理)

python、multithreading、selenium、scrapy、multiprocessing

我试图从urls列表中抓取一个奇异的数据点到动态加载的站点。我用selenium实现了一个刮板，但是太慢了。我试过使用scrapy，但意识到scrapy不适用于动态加载的站点。我已经看到了与刮伤有关的文档--但这似乎是这样的: splash加载一个动态站点，而scrapy解析来自一个站点的数据；我有一个庞大的urls列表。我正在考虑使用，但不确定从哪里开始/它是否能很好地与selenium一起工作。 def get_cost(url): driver.get(url) try: element = WebDriverWait(driver, 4).until( EC.p

浏览 3提问于2022-06-10得票数 1

回答已采纳

2回答

如何在提供angular JavaScript数据的页面上执行Scrapy和Selenium？

javascript、selenium、scrapy

我正在做一个类似于这个->的刮刀访问站点A -->单击立即购买按钮-->登陆亚马逊-->抓取数据-->返回站点A 问题是网站是在AnugularJS上创建的。我无法使用selenium.click()单击该按钮我正在使用selenium和scrapy来抓取这个javascript页面。该页面是无限加载的页面，请建议一个解决方案，这是无限加载的页面。下面是Div元素- <a class="external" href="http://www.amazon.com/dp/B01DBR53FU/?tag=097-20&

浏览 38提问于2018-06-03得票数 0

回答已采纳

1回答

使用Selenium(Python)访问URL时不加载JS/AJAX内容

javascript、python、ajax、selenium、web-scraping

我试着刮这个网址：我想要抓取的值是动态加载的，例如，在普通浏览器中打开链接时，内容被加载得很好，但是如果我使用Selenium(chromedriver)，它只会继续加载，并且这些值永远不会显示。知道我该怎么刮吗？下面是它的样子的图片。在普通浏览器中打开链接时，也可以看到加载1-2秒。

浏览 6提问于2022-03-27得票数 1

回答已采纳

3回答

如何使selenium在页面加载后对页面进行刮擦

python、selenium、web-scraping、scrapy、macos-catalina

我使用scrapy来抓取所有的链接，用selenium抓取所有的页面。Selenium抓取了大部分页面，但在加载页面时留下了几个页面。我尝试了timeout()，但似乎不起作用，然后我尝试了使用execute_script driver.execute_script(“返回document.readyState==”完成“；”) 这似乎也不起作用，然后我试着用expected_conditions ( WebDriverWait.until(expected_conditions.execute_script("return document.readyState==“完全”；

浏览 4提问于2020-08-23得票数 0

1回答