如何减少爬虫爬行时scrapy生成的selenium webdriver实例的数量？

selenium、scrapy

在为任何爬行器运行爬行进程时，Scrapy倾向于产生大量(平均27个，在19 -30个之间变化) Firefox实例，即使正在运行的爬行器没有使用selenium。我已经在每个使用selenium的爬行器中尝试了def __del__(self)中的driver.quit()。这个问题仍然存在。即使在爬网过程完成后，Firefox实例仍保持打开状态。import scrapy import selenium

浏览 8提问于2020-04-16得票数 0

回答已采纳

1回答

可以将pyexecjs与scrapy一起使用吗？

javascript、python、web-scraping、scrapy、screen-scraping

不久前我偶然发现了pyexecjs，我想知道它是否可以与scrapy一起用于抓取JS生成的数据。我检查了应该如何使用该库的示例，但我不确定如何将其与scrapy集成。

浏览 4提问于2014-10-12得票数 0

1回答

Selenium运行Firefox驱动程序，用于不使用

python、selenium、scrapy

我使用了的火狐驱动程序来加载和废弃项目中的一些蜘蛛中的网页。问题：Selenium只在运行已在webdriver.Firefox()中使用的蜘蛛时才运行Firfox实例。为什么这很重要？在蜘蛛完成后，我将退出Firefox实例

浏览 3提问于2016-12-10得票数 2

回答已采纳

1回答

Python Scrapy* - Selenium -请求下一页*

python、selenium、scrapy

我试图使一个网络爬虫，去一个链接，并等待Javascript内容加载。然后，在进入下一页之前，它应该获得所有指向列出的文章的链接。问题是它总是从第一个url ("")抓取，而不是遵循我给它的url。为什么下面的代码不能从我在reqeusts中传递的新urls中抓取？我没主意了.from scrapy.http.request import Request from selenium import <em

浏览 2提问于2017-06-14得票数 1

3回答

与Scrapy一起使用时Selenium* web驱动程序实例过多*

python、selenium、selenium-webdriver、scrapy、web-crawler

我正在创建一个使用Scrapy和Selenium的网络爬虫。代码如下所示： urls = [/* a very long list of url */] options.add_argument('--headless') dr

浏览 0提问于2018-03-10得票数 0

1回答

向from_crawler脚本添加scrapy.xlib.pydispatch方法

python-3.x、selenium、scrapy

其他人也应该有同样的机会找到有用的职位。from scrapy.selector import Selector f

浏览 4提问于2019-10-08得票数 1

1回答

download_delay在硒中的应用研究

python、selenium、scrapy

我正在使用scrapy和Selenium，这是爬行器的轮廓 start_urls = ["example.com"] self.driver = webdriver.PhantomJS()问题是，在爬取了不同数量的页面(有

浏览 0提问于2014-12-11得票数 1

1回答

用Python3 (Scrapy，BS4)抓取网站确实会产生不完整的数据。找不到原因

python-3.x、web-scraping、scrapy

请求包含完整的网站，并且提取了正确的值。 name = "whisky"

浏览 4提问于2020-10-22得票数 0

1回答

刮伤请求不起作用

python、selenium、web-scraping、scrapy、scrapy-spider

我正在使用和Scrapy从selenium中抓取每一个信息。# -*- coding: utf-8 -*-from scrapy

浏览 5提问于2015-03-12得票数 2

1回答

用硒爬行而不是刮刮

python、selenium、selenium-webdriver、web-scraping、scrapy

我已经阅读了所有使用scrapy对AJAX页面进行抓取的线程，并安装了selenium来简化任务，我的爬行器可以部分爬行，但不能将任何数据输入到我的项目中。页面上使用xpath: //div[@id="a_NMContent/ text ()") import scra

浏览 4提问于2014-12-20得票数 5

3回答

Python硒多处理

python、python-3.x、selenium、web-scraping、multiprocessing

我用python和selenium结合编写了一个脚本，从它的登陆页面中抓取不同帖子的链接，并通过跟踪指向其内部页面的url最终获得每个帖子的标题。虽然我在这里分析的内容是静态的，但我使用selenium来查看它在多处理中的工作方式。然而，我的意图是使用多处理进行抓取。到目前为止，我知道selenium不支持多处理，但我似乎错了。我的问题:当使用多进程运行时，如何

浏览 2提问于2018-11-26得票数 31

回答已采纳

1回答

Selenium webdriver无法获得一个元素

python-3.x、selenium、selenium-webdriver、web-scraping、web-crawler

我想创造一个爬虫/刮刀。以及我想爬的元素，在我看来是为JS服务的。在我的浏览器中，我可以看到这个元素，但是在webdriver上，我看不到这个元素。例如，URL：但是在chrome上，我看不到这样的元素：我的网络驱动程序代码是这样的： from selenium import webdriver</e

浏览 0提问于2021-04-08得票数 0

回答已采纳

1回答

使用scrapy* splash对抓取速度有显著影响吗？*

python、selenium、web-scraping、scrapy、scrapy-splash

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，<

浏览 3提问于2018-04-18得票数 12

回答已采纳

2回答

搜索使用特定JS API的站点

web-crawler

我们正在尝试确定在使用特定JS API/服务的站点中查找、爬行web时使用的最佳策略/工具。例如，我们想确定使用Google Analytics的网站数量。当然，我们可以只检查是否存在UA-XXX-XX变量，但是，如果我们想要查找使用Disqus的站点，这将不起作用……我们宁愿运行一个无头浏览器，并查看与www.google-analytics.com建立网络连接的页面对此最好的策略是什么？

浏览 2提问于2015-01-09得票数 0

2回答

使用scrapy抓取节点

python、scrapy

我正在尝试使用scrapy从网站抓取一些广告信息。该网站有一些带有class="product-card new_ outofstock installments_ "的div标签。response.xpath("//div[contains(@class, 'product-')]") 我得到了一些带有类属性= "product-description"但没有"product-card"的节点

浏览 1提问于2016-01-15得票数 0

2回答

无法从Scrapy脚本启动Firefox，但它在命令行中运行良好

python、firefox、selenium、scrapy

我用Scrapy来满足爬行的需要。对于动态网页，我使用Selenium在Firefox中加载页面。由于代码将在AWS实例上运行，所以我使用PyVirtualDisplay为Firefox创建虚拟显示。现在，当我使用命令scrapy crawl amazon运行我的爬虫时，我收到一个错误： scrapy shell <url> >>> from seleni

浏览 3提问于2015-11-19得票数 1

回答已采纳

1回答

在动态站点上生成空括号的Scrapy* Xpath结构*

python、selenium、selenium-webdriver、web-scraping、scrapy

我试图通过抓取创建一个蜘蛛爬一个网站，并提取特定商店的所有链接。最终，蜘蛛将使用这些商店链接来提取定价信息。该网站旨在将存储信息细分为各州和地区。因此，我使用selenium，并将时间延迟了20秒，以便为网页加载提供适当的时间。示例链接将是，正如您在左侧所看到的，有特定存储的信息。使用yields元素的代码片段生成以下HTML： <li class="ng-scope" ng-repeat="listing in l

浏览 0提问于2015-05-27得票数 2

回答已采纳

1回答

如何并行运行Selenium-scrapy

python、selenium、web-scraping、scrapy、multiprocessing

我使用selenium和一个chrome驱动程序打开javascript网站，使用scrapy从当前页面抓取到不同列表的所有链接，并将它们存储在一个列表中(到目前为止，这是最好的方法，因为尝试使用seleniumRequest然后，我循环遍历URL列表，在selenium驱动程序中打开它们，并从页面中抓取信息。到目前为止，这个网站每分钟抓取16个页面，考虑到这个网站上的列表数量，这并不理想。https://gist.github.com/m

浏览 36提问于2021-02-05得票数 0

回答已采纳

2回答

将selenium驱动程序传递给scrapy

python、selenium、scrapy

我读过很多关于传回HtmlResponse和使用selenium中间件的文章，但一直在努力理解如何构造代码并将其实现到我的解决方案中。下面是我的爬虫代码：from selenium import webdriver from selenium.webdriver.common.keys import Keys代码的抓取部分似乎工作正常(因为它找到加载了

浏览 3提问于2018-03-19得票数 0

1回答

scrapy未进入解析(response.url)

selenium、parsing、scrapy、web-crawler

当我爬行时，没有错误代码，但scrapy在解析时不会输入response.url。也就是说，页面是标题为“data”的空页面；如何输入repsonse.url？import scrapyfrom scrapy.selector import Selector class RE

浏览 0提问于2019-02-14得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可以将pyexecjs与scrapy一起使用吗？

Selenium运行Firefox驱动程序，用于不使用

Python Scrapy* - Selenium -请求下一页*

与Scrapy一起使用时Selenium* web驱动程序实例过多*

向from_crawler脚本添加scrapy.xlib.pydispatch方法

download_delay在硒中的应用研究

用Python3 (Scrapy，BS4)抓取网站确实会产生不完整的数据。找不到原因

刮伤请求不起作用

用硒爬行而不是刮刮

Python硒多处理

Selenium webdriver无法获得一个元素

使用scrapy* splash对抓取速度有显著影响吗？*

搜索使用特定JS API的站点

使用scrapy抓取节点

无法从Scrapy脚本启动Firefox，但它在命令行中运行良好

在动态站点上生成空括号的Scrapy* Xpath结构*

如何并行运行Selenium-scrapy

将selenium驱动程序传递给scrapy

scrapy未进入解析(response.url)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐