腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在完成第一页后强制
scrapy
解析
第二页
、
、
、
我使用的是
Scrapy
1.5.1版。我创建了
解析
器,它从主页
解析
urls,然后从已经
解析
的urls中
解析
urls,等等。
Scrapy
异步工作,并进行并行连接。问题是,我有一些逻辑,urls应该首先
解析
,创建我已经访问过的urls集,要访问的最大urls数等。一开始,我配置了CONCURRENT_REQUESTS_PER_DOMAIN=1和CONCURRENT_REQUESTS=1,但它没有帮助,因为我认为有调度程序缓存url,它将
处理
下一步,然后以不
浏览 4
提问于2018-10-28
得票数 0
1
回答
将命令从批
处理
文件
解析
并运行到交互式shell中
、
、
、
我正在尝试从批
处理
文件中运行
scrapy
shell,到目前为止工作的是启动批
处理
文件和交互式shell。然后,我希望能够将命令
解析
到
scrapy
控制台(在shelp()之后的命令行)。我的代码:
scrapy
shell <url> < printing log statsSelectSel
浏览 4
提问于2020-02-28
得票数 0
2
回答
使用
Scrapy
下载所有
JS
文件?
、
我试图爬行一个网站,搜索所有的
JS
文件来下载它们。我刚接触
Scrapy
,我发现我可以使用CrawlSpider,但我似乎对LinkExtractors有一个问题,因为我的
解析
器没有执行。import
scrapy
from
scrapy
.linkextractors import LinkExtractor'example.com'] start_urls = ['
浏览 25
提问于2021-02-17
得票数 0
回答已采纳
1
回答
将
Scrapy
指向本地缓存,而不是执行正常的爬行过程
、
、
我使用管道将
Scrapy
爬行中的文档缓存到数据库中,这样,如果我更改了项目
解析
逻辑,就可以重新
解析
它们,而不必再次访问服务器。 让
Scrapy
从缓存中
处理
而不是尝试执行常规抓取的最好方法是什么?我喜欢
scrapy
对CSS和XPath选择器的支持,否则我会用lxml
解析
器单独访问数据库。有一段时间,我根本没有缓存文档并以正常的方式使用
Scrapy
-即时
解析
项目-但我发现更改项目逻辑需要耗费大量的时间和资源。相反,我现在将文档正文与项<
浏览 1
提问于2015-09-05
得票数 3
2
回答
如何获取刮伤壳中的刮伤响应
、
、
、
、
我对
Scrapy
项目很陌生,我读过很多教程。它们似乎都假设您知道如何立即
解析
响应对象,并且可以立即调用响应回调(例如
scrapy
.Request(url=url, callback=self.parse))。如何取回
Scrapy
响应对象,以便能够交互地操作它?
浏览 4
提问于2017-04-09
得票数 2
回答已采纳
1
回答
为什么
Scrapy
中的数据没有完全加载视图(响应)?
、
我正试着用
Scrapy
从Youtube上收集一些评论。但是,当我进入
scrapy
shell模式并使用view(response)打开它时,除了加载旋转器之外,我找不到任何注释。
scrapy
shell https://www.youtube.com/watch?v=kkl7-NzqxWo在注释部分显示无限旋转器。
浏览 1
提问于2018-12-01
得票数 0
回答已采纳
1
回答
在
scrapy
.Request中添加dont_filter=True参数是如何使我的
解析
方法工作的?
、
、
这是一个简单的抓取蜘蛛 name = "dmoz" start_urls = ('https://www.dmoz.org/') yield
scrapy
.Requestyield
scrapy
浏览 1
提问于2016-08-15
得票数 8
回答已采纳
1
回答
刮除: FormRequest不自动填充ASP.net隐藏字段
、
、
、
、
我用
Scrapy
来刮一些在认证屏幕后面的金子。该网站使用ASP.net和ASP的一些愚蠢的隐藏字段随处可见(如__VIEWSTATE,__EVENTTARGET)。
浏览 2
提问于2014-05-10
得票数 6
回答已采纳
1
回答
产品信息分析及产品评论
、
、
我从这里开始:name = "shein_spider" "https://www.shein.com/tab02navbar02menu01dir06~~2_1_6~~real_1978~~~~0~~0" for item in response.css('.
js
-good'): yiel
浏览 0
提问于2020-03-11
得票数 1
回答已采纳
1
回答
解析
回调没有定义--简单的Webscraper (
Scrapy
)仍然没有运行
、
、
这在没有规则的情况下工作得很好,只需要生成正常的
解析
函数。制定规则似乎是可行的。因此,我实际上希望它能够运行,而不是在
解析
函数中
处理
输出。import
scrapy
浏览 2
提问于2019-11-18
得票数 2
回答已采纳
1
回答
按DFS顺序不爬行
、
、
、
Scrapy
似乎在按BFS顺序爬行页面,尽管文档说默认情况下订单应该是DFS。这是我的蜘蛛from
scrapy
.http import FormRequest, Request “
解析
的URL:.”“
解析
DATA_AGAIN的URL:.” “
解析
DATA_AG
浏览 4
提问于2015-09-11
得票数 2
回答已采纳
2
回答
刮伤xpath不起作用(可能是parbase的东西?)
、
、
这就是我试过的。我试图弄到这篇文章的正文内容:“电视上的共同观看.”。我试过以下表达式:[Out 1]:[] [Out 2]: [u'\n', u'\n\n'
浏览 3
提问于2017-09-20
得票数 1
回答已采纳
2
回答
在web服务器上使用java内容的抓取
、
、
我看到
Scrapy
无法加载动态内容,我阅读selenium可以
处理
它,但我计划使用web服务器。 有什么方法可以
解析
这个站点或获取动态请求并使用
scrapy
解析
它吗?
浏览 3
提问于2016-01-28
得票数 1
回答已采纳
1
回答
python抓取与蜘蛛的双向爬行
、
我正在读Dimitrios Kouzis-Loukas的learning
scrapy
。
浏览 0
提问于2019-01-05
得票数 1
1
回答
使用
scrapy
从facebook中抓取数据
、
、
、
因此,在抓取这个url之前,我通过
scrapy
登录,然后通过这个结果页面登录。但是,即使这个页面的http响应是200,它也不会丢弃任何数据。守则如下:from
scrapy
.spider import BaseSpiderfrom
scrapy
.selectorimport HtmlXPathSelector from
scrapy
.contrib.spiders import CrawlSpider, R
浏览 3
提问于2013-05-31
得票数 5
1
回答
将
Scrapy
与Javascript和iFrames及替代方案一起使用
、
、
我正在尝试使用
Scrapy
来抓取美国政府法规网站(www.regulations.gov)。它有大量的信息,但这是一个糟糕的网站,充满了javascript和iframe。我试着运行一些简单的
Scrapy
爬虫,但我无法
解析
出任何东西,因为所有东西都是通过Javascript和iframe加载的。例如,在上,这段代码实际加载结果表: <script type="text/javascript" src="Regs/Regs.nocache.
js
?
Scrapy</
浏览 0
提问于2011-05-17
得票数 4
回答已采纳
2
回答
如何在div中获取文本
、
看看这个网页: details = response.xpath('.//div[@class="detail"]/text()').extract()
浏览 1
提问于2019-07-25
得票数 1
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
、
、
、
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
2
回答
Scrapy
爬行器不会因使用CloseSpider扩展而终止
、
、
、
我设置了一个
Scrapy
爬行器来
解析
xml提要,
处理
大约20,000条记录。}2017-06-15 12:14:11 [
s
浏览 0
提问于2017-06-15
得票数 4
1
回答
如何创建线程池
、
、
、
以下是代码: print("inside function") print("in herre") self.product_url = response.xpath('//div[@class = "collection-grid
js
-filter-grid
浏览 1
提问于2019-08-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spider源码解析-Scrapy框架实战
Vue.js 技术解析
Scrapy-Redis分布式爬虫源码解析
JS错误和异常处理
重新入门python爬虫到放弃
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券