腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
开始
urls
和
域
的
Scrapy
迭代
、
、
、
我正在尝试从csv读取
urls
和
域
的
列表,并让
Scrapy
爬行器遍历
域
的
列表并启动
urls
,目标是通过我
的
管道将该域中
的
所有
urls
导出到csv文件中。import
scrapy
from
scrapy
.linkextractors import LinkE
浏览 2
提问于2018-02-23
得票数 0
回答已采纳
2
回答
抓取Python循环到下一个未擦伤
的
链接
、
、
我试图让我
的
蜘蛛浏览一个列表,刮掉所有的url--它可以在它们后面找到,抓取一些数据,然后返回到下一个未刮掉
的
链接上--如果我运行这个蜘蛛--我可以看到它返回到起始页面,但是尝试再次抓取相同
的
页面,然后退出对python来说非常新
的
任何代码建议。(
scrapy
.Spider): allowed_domains = ["domain.com"] start_
urls
= [] = res
浏览 3
提问于2016-07-18
得票数 0
回答已采纳
2
回答
多次解析
、
、
、
我正在尝试一个解析
域
,其内容如下所示第2页-包含10篇文章
的
链接等等..。到目前为止,我已经能够遍历页面,解析
和
收集到文章
的
链接。我被困在如何
开始
解析这个列表上了。import
scrapy</
浏览 0
提问于2020-02-02
得票数 2
回答已采纳
2
回答
如何从XML页面中提取
urls
,加载它们并使用提取其中
的
信息?
、
、
我使用
Scrapy
的
XMLfeedspider从页面xml中提取信息。我试图只提取标签"loc“中该页上
的
链接,并加载它们,但阻止页面重定向,然后将其发送到将从该页收集信息
的
最后一个解析节点。问题是,我不确定是否可以在"def star_
urls
“上加载这些页面,或者是否需要使用parse_node并将其重定向到另一个解析以提取我需要
的
信息,但是即使我尝试了,也不知道如何从xml页面中提取链接继续我
的
想法: 方法应该是加载并从其中提取<loc&
浏览 2
提问于2017-07-20
得票数 1
回答已采纳
1
回答
Scrapy
Crawler多个
域
在检索源页面后没有错误地完成
、
尝试让
Scrapy
抓取多个
域
。我让它工作了很短时间,但有些东西改变了,我不知道是什么。我
的
理解是,带有规则
的
"CrawlSpider“应该遵循任何允许
的
链接,直到深度设置或域名耗尽。import
scrapy
from
scrapy
.linkextractors import LinkExtractor我会修改"allowed_domains“
浏览 29
提问于2018-06-03
得票数 1
回答已采纳
1
回答
如何从不同
的
start_requests方法返回
的
urls
中获取xpath
、
、
、
这是我
的
代码:from
scrapy
.spider import BaseSpiderimportclass AmazonSpider(BaseSpider): allowed_domains = ["amazon.com"] yield self.m
浏览 1
提问于2015-01-06
得票数 1
回答已采纳
2
回答
Python:列出没有索引
的
网站
的
所有URL
、
、
.*}.html 但是,对主页面http://www.example.com
的
访问受到某种限制,我被重定向到一个错误页面显示:Erreur 403 - Refus de traitement de la有没有一种方法可以列出托管在该
域
下
的
HTML页面的所有URL?
浏览 4
提问于2016-06-15
得票数 2
回答已采纳
1
回答
Scrapy
如何保存爬网状态?
、
我能够保存我
的
抓取状态,并且
Scrapy
成功地从我切断
的
地方继续。每次重新启动爬行器时,我都保持start_
urls
不变,即每次重新启动爬行器时,提供
的
start_
urls
的
顺序
和
列表都是恒定
的
。但我需要对我
的
start_
urls
做一个随机
的
洗牌,因为我有来自不同
域
的
URL,以及来自相同
域
的
URL,但由于它们是
浏览 0
提问于2019-07-04
得票数 0
1
回答
Python
Scrapy
:返回抓取
的
URL列表
、
、
、
我使用
scrapy
来刮掉单个
域
的
所有链接。我正在追随
域
上
的
所有链接,但保存了域中
的
所有链接。下面的刮板可以正常工作,但是我不能从刮板内部访问成员变量,因为我是用CrawlerProcess运行它
的
。import
scrapy
name = 'myspid
浏览 14
提问于2020-04-30
得票数 0
1
回答
抓取完整
的
域名并将所有h1加载到一个项目中
、
我对python
和
scrapy
比较陌生。我想要实现
的
是抓取一些网站,主要是公司网站。抓取整个
域
并提取所有h1 h2 h3。创建一个包含域名
和
一个字符串
的
记录,其中包含该域中
的
所有h1 h2 h3。基本上有一个Domain item
和
一个包含所有头
的
大字符串。我遇到
的
问题是,
浏览 1
提问于2014-01-25
得票数 0
1
回答
如何在完成第一页后强制
scrapy
解析第二页
、
、
、
我使用
的
是
Scrapy
1.5.1版。我创建了解析器,它从主页解析
urls
,然后从已经解析
的
urls
中解析
urls
,等等。
Scrapy
异步工作,并进行并行连接。问题是,我有一些逻辑,
urls
应该首先解析,创建我已经访问过
的
urls
集,要访问
的
最大
urls
数等。一
开始
,我配置了CONCURRENT_REQUESTS_PER_DOMAIN=1
和
CON
浏览 4
提问于2018-10-28
得票数 0
3
回答
宽泛
的
抓取-不同
的
xpaths
Scrapy
、
、
、
我是新来
Scrapy
的
。我在一个数据库中有成千上万
的
url,xpath元组
和
值。这些
urls
来自不同
的
域
(并非总是如此,同一个
域
可以有100个
urls
)。我
的
想法是:这是一个很好
的
实践吗?我可以这样
浏览 0
提问于2017-03-29
得票数 1
1
回答
使用
Scrapy
递归地抓取链接
的
域
、
、
下面是我用来抓取一个
域
的
所有
urls
的
代码:from
scrapy
.spiders import CrawlSpider, Rule name = 'urlsspider' allowed_domain
浏览 0
提问于2017-10-14
得票数 0
3
回答
如何在
scrapy
中覆盖/使用cookie
、
我想废弃,这个网站首先以阿拉伯语
开始
,它将语言设置存储在cookies中。如果您尝试通过URL ()直接访问语言版本,则会出现问题并返回服务器错误。因此,我想将Cookie值"store_language“设置为"en",然后使用此Cookie值
开始
销毁网站。from
scrapy
.spider import BaseSpiderfrom <e
浏览 2
提问于2012-05-20
得票数 21
1
回答
循环多个URL,以便在
Scrapy
中从CSV文件中刮擦不起作用
、
、
当我尝试执行这个循环时,我得到了错误,请帮助我想要使用csv文件刮取多个链接,但是在start_
urls
中是stucks,我使用
scrapy
2.5
和
python3.9.7from
scrapy
.http import request #
浏览 5
提问于2021-11-09
得票数 2
回答已采纳
2
回答
如何改变抓取蜘蛛
的
网址顺序?
、
、
、
我正在从成千上万
的
网页上得到更新。可以有多个具有相同
域
的
页面。我已经将DOWNLOAD_DELAY设置为1秒,这样就不会使服务器超载。Spider运行良好,但是如果有相同
域
的
100个
urls
在一起,它会减慢爬行速度,因为Spider必须在每个请求之后等待1秒。DOWNLOAD_DELAY = 1 网址: A.com
浏览 3
提问于2017-04-22
得票数 0
回答已采纳
3
回答
(Python,
Scrapy
)将txt文件中
的
数据放入
Scrapy
爬行器
、
、
、
我是Python
和
Scrapy
的
新手。我有一个项目。在爬行器中有这样一段代码: name = "project" start_
urls
= ["https://domain.com/%d" % i for i in range(12308128,12308148)] 我想从txt文件(或csv
浏览 28
提问于2017-01-24
得票数 1
回答已采纳
3
回答
使用
Scrapy
抓取多个URL
、
如何使用
Scrapy
抓取多个URL? name = "speedy" start_
urls
start_
urls
= ["http://example.com/category/top/page-%d/" % i for i in xrange(
浏览 0
提问于2013-04-19
得票数 2
回答已采纳
2
回答
抓取抓取中
的
链接
、
我试图建立一个广泛
的
连续爬虫,我能够提取链接,但我无法抓取他们
和
提取这些链接。该项目的最终目标是抓取.au
域
并将其根URL添加到数据库中。class Crawler (
scrapy
.Spider): rules = (Rule(LinkExtractor(allow='.com'), callbackstart_
urls
= [ "http://quotes.toscra
浏览 0
提问于2020-06-10
得票数 0
回答已采纳
2
回答
性能改善
和
内存消耗
、
、
服务器 import
scrapy
def get_<em
浏览 4
提问于2016-08-26
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy源码(2)——爬虫开始的地方
私域流量商业模式的底层逻辑认知迭代
Spider源码解析-Scrapy框架实战
Python爬虫学习初窥Scrapy
Python Scrapy使用实例讲解
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券