腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使
scrapy
请求
同步
python-3.x
、
loops
、
request
、
scrapy
、
synchronous
我最近开始使用
Scrapy
和Python,所以请容忍我。我的代码基于这个tutorial。我需要从我的国家(巴西)的所有城市从这个website在不同年份的一些信息。下拉列表的选项是通过AJAX
请求
动态生成的。因此,我首先获取所有年份和州,然后
请求
获取每个州的城市。也让我知道原因),即它向一个州错误的城市发出
请求
。因此,我收到了错误的响应。顺便说一句,虽然使用return可以完成函数,但它会发出正确的
请求
。第二:回调将获取所有城市,并在该年的该州为该城市发出
请求
。第三: parse_re
浏览 93
提问于2019-03-01
得票数 0
回答已采纳
2
回答
Scrapy
默认是异步的吗?
python
、
asynchronous
、
web-scraping
、
scrapy
如果
scrapy
的性质是正确的,它会移动到另一个页面,直到收到前一个页面的响应。向下滚动后,我看到使用了async def,这意味着通过添加显式地
使
该方法成为异步方法。
浏览 108
提问于2020-05-07
得票数 2
回答已采纳
1
回答
修改
scrapy
进程
请求
python
、
selenium
、
scrapy
import
scrapy
from
scrapy
.loader import ItemLoaderfrom
scrapy
.crawler import CrawlerProcess
scrapy
浏览 0
提问于2019-08-03
得票数 0
1
回答
如何
将Keep_Fragments参数设置为True?
scrapy
我正在尝试抓取一个使用Js的站点,但
scrapy
一直将下一个页面的url作为副本丢弃,并停止抓取。根据我的理解,
scrapy
通过检查
请求
所指向的资源的散列来检查重复项,默认情况下会丢弃URL中的片段。(参见下面的
scrapy
发布说明摘录) “
scrapy
.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的
请求
生成不同的指纹(问题4104)” 我的问题是,
如何
实际修改这个参数?
浏览 20
提问于2020-09-09
得票数 0
回答已采纳
2
回答
Scrapy
分布式连接计数
redis
、
scrapy
、
middleware
假设我有几个服务器,每个服务器同时运行多个
Scrapy
spider实例。使用CONCURRENT_REQUESTS = 4,每个爬行器被限制为4个并发
请求
。具体来说,假设一次有10个爬虫实例,所以我从不期望一次最多有40个
请求
。如果我需要知道在任何给定时间,有多少并发
请求
在所有10个爬行器中处于活动状态,我可能会考虑将该整数存储在中央redis服务器上的某个"connection_count“键下。我的理论是,即使每个爬行器的
请求
并发数上限为4,
Scrapy
仍然会同时创建和排
浏览 1
提问于2017-02-02
得票数 0
2
回答
如何
在asyncio甚至循环内运行
scrapy
spider?
python
、
scrapy
有没有办法在asyncio循环中运行
scrapy
spider?例如,在以下代码中:from
scrapy
.crawler import CrawlerProcessimport
scrapy
process = CrawlerProcess() await process.crawl(MySpider)
浏览 1
提问于2017-12-04
得票数 5
1
回答
如何
将所有CPU核心用于
Scrapy
scrapy
不管我怎么使用CONCURRENT_REQUESTS,我的
scrapy
程序只使用一个CPU核心。
scrapy
中的一些方法是否可以在一个
scrapy
爬虫中使用所有的cpu核心?
浏览 0
提问于2017-07-10
得票数 5
4
回答
如何
使
Scrapy
在日志中的每个下载
请求
显示用户代理?
python
、
web-scraping
、
scrapy
、
web-crawler
、
user-agent
我知道我可以在
Scrapy
项目的settings.py文件中设置settings.py。当我运行
Scrapy
时,我可以在USER_AGENT日志中看到INFO的值。这个USER_AGENT在我想要爬行的服务器的每个下载
请求
中都被设置。 但是,在USER_AGENT的帮助下,我正在使用多个随机。我想这个随机选择的USER_AGENT会起作用。我想确认一下。那么,
如何
使
Scrapy
在每个下载
请求
中显示 USER_AGENT,以便在日志中看到USER_AGENT的值?
浏览 9
提问于2014-04-18
得票数 14
3
回答
Scrapy
是单线程还是多线程?
python
、
multithreading
、
scrapy
、
web-crawler
在
Scrapy
中几乎没有并发设置,比如。这是否意味着
Scrapy
crawler是多线程的?所以如果我运行
scrapy
crawl my_crawler,它会同时并行地触发多个
请求
吗?我问这个是因为,我读到过
Scrapy
是单线程的。
浏览 0
提问于2014-07-15
得票数 17
1
回答
通过python
scrapy
包获取响应
python
、
scrapy
、
python-requests
我想在python中通过
scrapy
发送一个http
请求
,并在一个变量中获得响应。我不知道
如何
捕捉回复文本。from
scrapy
import Request "authority": "***", "user-agent": "Mozilla
浏览 14
提问于2020-09-04
得票数 1
1
回答
基于同一蜘蛛先前爬行的抓取跳过
请求
python
、
python-3.x
、
scrapy
、
scrapy-pipeline
如果发现一个红色的球,我想停止爬行剩下的球(也就是说,我不想为下一个球发出
请求
,我知道它不会是红色的,因为我已经找到了)。 name = 'test_spider' yield {
浏览 6
提问于2021-10-13
得票数 0
回答已采纳
1
回答
Scrapy
crawlers不能从Python脚本同时运行
python
、
command-line
、
scrapy
下面是我运行所有脚本的Python脚本:cityNames = file.readcityNames: output = city + ".json" cmdline.execute(['
scrapy
浏览 0
提问于2015-11-12
得票数 0
2
回答
在python中使用
scrapy
执行Javascript函数
python
、
scrapy
我对"
scrapy
“非常陌生,我正在废弃一个网站,因为我有一些锚标记,其中包含了带有java脚本SubmitForm函数的href属性。有人能告诉我
如何
在
scrapy
python.My HTML代码中执行javascript提交锚标记的函数吗?
浏览 7
提问于2012-05-18
得票数 5
3
回答
如何
在没有回调的情况下从
scrapy
.Request获得响应?
python
、
python-3.x
、
scrapy
我想发送一个
请求
并等待来自服务器的响应,以便执行与操作相关的操作。我写了以下内容却没有得到任何帮助。
如何
等待服务器的响应?
浏览 1
提问于2018-09-05
得票数 6
回答已采纳
1
回答
如何
从停止的地方重新启动蜘蛛?
python
、
web-scraping
、
scrapy
、
scrapy-spider
当我阅读
Scrapy
文档时,在作业:暂停和继续爬行主题下,我使用文档中提到的命令运行爬行器,即
scrapy
爬行蜘蛛名称-s JOBDIR=目录路径。当我再次查看文档时,它指出“
请求
必须由泡菜模块序列化,以便持久性工作,因此您应该确保您的
请求
是可序列化的.”,在完成settings.py中的SCHEDULER_DEBUG = TRUE设置之后,我在控制台中可以看到,这就是为什么在
请求
没有序列化的情况下如果
浏览 0
提问于2018-11-29
得票数 1
回答已采纳
1
回答
如何
发出
请求
并获取所有链接
python
、
scrapy
如何
使
另一个函数对列表中的每个链接发出
请求
,并从第二个页面响应中获取所有链接?import
scrapy
name = 'nytimes' allowed_domains
浏览 2
提问于2022-01-24
得票数 0
回答已采纳
1
回答
如何
在Python2.7中创建一个有效的爬虫
python
、
web-scraping
、
beautifulsoup
、
web-crawler
所以我想要一些想法,以及
如何
实现它们来改善这一点,例如,我有产品ID,所以如果我已经访问了一个包含该ID的链接,我就不想再访问它了。我想抓取所有的网页,但只访问包含产品的网页……但我不知道
如何
实现这两个想法:/import urllibfrom itertoolsfound_urls) pass 例如,在爬虫中,我使用单词"#C“来知道这是一个产品页面并获
浏览 0
提问于2015-11-23
得票数 1
1
回答
硒与
Scrapy
结合
python
、
selenium
、
selenium-webdriver
、
web-scraping
、
scrapy
是否有任何方法有效地将Selenium集成到
Scrapy
中,以实现其页面呈现功能(以便生成屏幕截图)?在
Scrapy
已经处理完这个
请求
之后,我看到的很多解决方案只是在WebDriver上抛出一个
Scrapy
请求
/响应URL,然后就可以完成了。这会产生两倍多的
请求
,在许多方面失败(需要登录的站点,具有动态或伪随机内容的站点,等等),并
使
许多扩展/中间件失效。 有什么“好”的方法让这两个人一起工作吗?
浏览 3
提问于2015-07-13
得票数 6
2
回答
抓取蜘蛛从链接中随机抓取数据为什么?
python
、
scrapy
但是
scrapy
没有串行地
请求
从链接list.after
请求
这些链接抓取数据成功,但当保存到csv文件时,它
使
一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行
请求
,它不会使任何空白row.how我能做到吗?我使用的是python 3.6和
scrapy
版本1.5.1import
scrapy
name = 'marketextrac
浏览 3
提问于2018-12-02
得票数 0
2
回答
如何
在Python中从产量回调函数中获取变量
python
、
scrapy
我一直试图弄清楚Python中的范围和变量是
如何
工作的。我一直在试图解决这个问题,但我无法找到从回调中获取变量的方法。
如何
从回调中获取变量?
浏览 0
提问于2019-01-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
个人爬虫小结,and 数据分析 Task starts right now
Python爬虫日记第十三天之微博-总结篇
Python爬虫学习初窥Scrapy
Scrapy向导
Scrapy源码(1)——爬虫流程概览
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券