腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2456)
视频
沙龙
1
回答
如何
减少
爬虫
爬
行时
scrapy
生成
的
selenium
webdriver
实例
的
数量
?
selenium
、
scrapy
在为任何爬行器运行爬行进程时,
Scrapy
倾向于产生大量(平均27个,在19 -30个之间变化) Firefox
实例
,即使正在运行
的
爬行器没有使用
selenium
。我已经在每个使用
selenium
的
爬行器中尝试了def __del__(self)中
的
driver.quit()。这个问题仍然存在。 即使在
爬
网过程完成后,Firefox
实例
仍保持打开状态。import
scrapy
import
selenium
浏览 8
提问于2020-04-16
得票数 0
回答已采纳
1
回答
可以将pyexecjs与
scrapy
一起使用吗?
javascript
、
python
、
web-scraping
、
scrapy
、
screen-scraping
不久前我偶然发现了pyexecjs,我想知道它是否可以与
scrapy
一起用于抓取JS
生成
的
数据。 我检查了应该
如何
使用该库
的
示例,但我不确定
如何
将其与
scrapy
集成。
浏览 4
提问于2014-10-12
得票数 0
1
回答
Selenium
运行Firefox驱动程序,用于不使用
python
、
selenium
、
scrapy
我使用了
的
火狐驱动程序来加载和废弃项目中
的
一些蜘蛛中
的
网页。问题:
Selenium
只在运行已在
webdriver
.Firefox()中使用
的
蜘蛛时才运行Firfox
实例
。 为什么这很重要?在蜘蛛完成后,我将退出Firefox
实例
浏览 3
提问于2016-12-10
得票数 2
回答已采纳
1
回答
Python
Scrapy
-
Selenium
-请求下一页
python
、
selenium
、
scrapy
我试图使一个网络
爬虫
,去一个链接,并等待Javascript内容加载。然后,在进入下一页之前,它应该获得所有指向列出
的
文章
的
链接。问题是它总是从第一个url ("")抓取,而不是遵循我给它
的
url。为什么下面的代码不能从我在reqeusts中传递
的
新urls中抓取?我没主意了.from
scrapy
.http.request import Request from
selenium
import <em
浏览 2
提问于2017-06-14
得票数 1
3
回答
与
Scrapy
一起使用时
Selenium
web驱动程序
实例
过多
python
、
selenium
、
selenium-webdriver
、
scrapy
、
web-crawler
我正在创建一个使用
Scrapy
和
Selenium
的
网络
爬虫
。代码如下所示: urls = [/* a very long list of url */] options.add_argument('--headless') dr
浏览 0
提问于2018-03-10
得票数 0
1
回答
向from_crawler脚本添加
scrapy
.xlib.pydispatch方法
python-3.x
、
selenium
、
scrapy
其他人也应该有同样
的
机会找到有用
的
职位。from
scrapy
.selector import Selector f
浏览 4
提问于2019-10-08
得票数 1
1
回答
download_delay在硒中
的
应用研究
python
、
selenium
、
scrapy
我正在使用
scrapy
和
Selenium
,这是爬行器
的
轮廓 start_urls = ["example.com"] self.driver =
webdriver
.PhantomJS()问题是,在
爬
取了不同
数量
的
页面(有
浏览 0
提问于2014-12-11
得票数 1
1
回答
用Python3 (
Scrapy
,BS4)抓取网站确实会产生不完整
的
数据。找不到原因
python-3.x
、
web-scraping
、
scrapy
请求包含完整
的
网站,并且提取了正确
的
值。 name = "whisky"
浏览 4
提问于2020-10-22
得票数 0
1
回答
刮伤请求不起作用
python
、
selenium
、
web-scraping
、
scrapy
、
scrapy-spider
我正在使用和
Scrapy
从
selenium
中抓取每一个信息。# -*- coding: utf-8 -*-from
scrapy
浏览 5
提问于2015-03-12
得票数 2
1
回答
用硒爬行而不是刮刮
python
、
selenium
、
selenium-webdriver
、
web-scraping
、
scrapy
我已经阅读了所有使用
scrapy
对AJAX页面进行抓取
的
线程,并安装了
selenium
来简化任务,我
的
爬行器可以部分爬行,但不能将任何数据输入到我
的
项目中。页面上使用xpath: //div[@id="a_NMContent/ text ()") import
scra
浏览 4
提问于2014-12-20
得票数 5
3
回答
Python硒多处理
python
、
python-3.x
、
selenium
、
web-scraping
、
multiprocessing
我用python和
selenium
结合编写了一个脚本,从它
的
登陆页面中抓取不同帖子
的
链接,并通过跟踪指向其内部页面的url最终获得每个帖子
的
标题。虽然我在这里分析
的
内容是静态
的
,但我使用
selenium
来查看它在多处理中
的
工作方式。 然而,我
的
意图是使用多处理进行抓取。到目前为止,我知道
selenium
不支持多处理,但我似乎错了。我
的
问题:当使用多进程运
行时
,
如何
浏览 2
提问于2018-11-26
得票数 31
回答已采纳
1
回答
Selenium
webdriver
无法获得一个元素
python-3.x
、
selenium
、
selenium-webdriver
、
web-scraping
、
web-crawler
我想创造一个
爬虫
/刮刀。以及我想
爬
的
元素,在我看来是为JS服务
的
。在我
的
浏览器中,我可以看到这个元素,但是在
webdriver
上,我看不到这个元素。例如,URL: 但是在chrome上,我看不到这样
的
元素:我
的
网络驱动程序代码是这样
的
: from
selenium
import
webdriver</e
浏览 0
提问于2021-04-08
得票数 0
回答已采纳
1
回答
使用
scrapy
splash对抓取速度有显著影响吗?
python
、
selenium
、
web-scraping
、
scrapy
、
scrapy-splash
到目前为止,我一直在使用
scrapy
和编写自定义类来处理使用ajax
的
网站。但是,如果我使用
scrapy
-splash,据我所知,它会在javascript之后抓取呈现
的
html,
爬虫
的
速度会受到严重影响吗?使用
scrapy
抓取一个普通
的
html页面所需
的
时间与使用
scrapy
-splash抓取javascript渲染
的
html所需
的
时间进行了怎样
的
比较?最后,<
浏览 3
提问于2018-04-18
得票数 12
回答已采纳
2
回答
搜索使用特定JS API
的
站点
web-crawler
我们正在尝试确定在使用特定JS API/服务
的
站点中查找、爬行web时使用
的
最佳策略/工具。 例如,我们想确定使用Google Analytics
的
网站
数量
。当然,我们可以只检查是否存在UA-XXX-XX变量,但是,如果我们想要查找使用Disqus
的
站点,这将不起作用……我们宁愿运行一个无头浏览器,并查看与www.google-analytics.com建立网络连接
的
页面对此最好
的
策略是什么?
浏览 2
提问于2015-01-09
得票数 0
2
回答
使用
scrapy
抓取节点
python
、
scrapy
我正在尝试使用
scrapy
从网站抓取一些广告信息。该网站有一些带有class="product-card new_ outofstock installments_ "
的
div标签。response.xpath("//div[contains(@class, 'product-')]") 我得到了一些带有类属性= "product-description"但没有"product-card"
的
节点
浏览 1
提问于2016-01-15
得票数 0
2
回答
无法从
Scrapy
脚本启动Firefox,但它在命令行中运行良好
python
、
firefox
、
selenium
、
scrapy
我用
Scrapy
来满足爬行
的
需要。对于动态网页,我使用
Selenium
在Firefox中加载页面。由于代码将在AWS
实例
上运行,所以我使用PyVirtualDisplay为Firefox创建虚拟显示。现在,当我使用命令
scrapy
crawl amazon运行我
的
爬虫
时,我收到一个错误:
scrapy
shell <url> >>> from
seleni
浏览 3
提问于2015-11-19
得票数 1
回答已采纳
1
回答
在动态站点上
生成
空括号
的
Scrapy
Xpath结构
python
、
selenium
、
selenium-webdriver
、
web-scraping
、
scrapy
我试图通过抓取创建一个蜘蛛
爬
一个网站,并提取特定商店
的
所有链接。最终,蜘蛛将使用这些商店链接来提取定价信息。该网站旨在将存储信息细分为各州和地区。因此,我使用
selenium
,并将时间延迟了20秒,以便为网页加载提供适当
的
时间。示例链接将是,正如您在左侧所看到
的
,有特定存储
的
信息。使用yields元素
的
代码片段
生成
以下HTML: <li class="ng-scope" ng-repeat="listing in l
浏览 0
提问于2015-05-27
得票数 2
回答已采纳
1
回答
如何
并行运行
Selenium
-
scrapy
python
、
selenium
、
web-scraping
、
scrapy
、
multiprocessing
我使用
selenium
和一个chrome驱动程序打开javascript网站,使用
scrapy
从当前页面抓取到不同列表
的
所有链接,并将它们存储在一个列表中(到目前为止,这是最好
的
方法,因为尝试使用seleniumRequest然后,我循环遍历URL列表,在
selenium
驱动程序中打开它们,并从页面中抓取信息。到目前为止,这个网站每分钟抓取16个页面,考虑到这个网站上
的
列表
数量
,这并不理想。https://gist.github.com/m
浏览 36
提问于2021-02-05
得票数 0
回答已采纳
2
回答
将
selenium
驱动程序传递给
scrapy
python
、
selenium
、
scrapy
我读过很多关于传回HtmlResponse和使用
selenium
中间件
的
文章,但一直在努力理解
如何
构造代码并将其实现到我
的
解决方案中。下面是我
的
爬虫
代码:from
selenium
import
webdriver
from
selenium
.
webdriver
.common.keys import Keys代码
的
抓取部分似乎工作正常(因为它找到加载了
浏览 3
提问于2018-03-19
得票数 0
1
回答
scrapy
未进入解析(response.url)
selenium
、
parsing
、
scrapy
、
web-crawler
当我爬
行时
,没有错误代码,但
scrapy
在解析时不会输入response.url。也就是说,页面是标题为“data”
的
空页面;
如何
输入repsonse.url?import
scrapy
from
scrapy
.selector import Selector class RE
浏览 0
提问于2019-02-14
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫防封的6个小诀窍
使用scrapy和selenium实现动态网页的分页爬取
最全总结|聊聊 Selenium 隐藏浏览器指纹特征的几种方式!
Python爬虫入门,快速抓取大规模数据-完结篇
Python爬取携程网酒店价格信息案例
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券