腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
start_urls
的
Scrapy
CrawlSpider
-
错误
恢复
scrapy
我正在使用带有errback
的
规则链接提取器
的
CrawlSpider
。 我使用parse_start_url来解析
start_urls
,但我也需要errback来解析它们。class CS(
CrawlSpider
): rules = (Rule(LinkExtractor(allow=[], deny=[]), follow=True,只有提取
的
链接才会调用errback,而不是
start_urls
。我不能使用
浏览 21
提问于2020-09-23
得票数 0
2
回答
刮掉
的
CrawlSpider
不跟随链接
python
、
web-scraping
、
web-crawler
、
scrapy
、
scrapy-spider
我正在尝试从这个类别页面上
的
所有(#123)详细页面中爬行一些属性-- ,但是
scrapy
无法遵循我设置
的
链接模式,我检查了刮伤文档和一些教程,但是没有幸运!以下是代码:from
scrapy
.contrib.spidersimport
CrawlSpider
, Rule class Stinkybklyn(
Crawl
浏览 3
提问于2015-06-09
得票数 2
回答已采纳
1
回答
解析回调没有定义--简单
的
Webscraper (
Scrapy
)仍然没有运行
python
、
scrapy
、
web-crawler
我试着开始我
的
刮刀不是从终端,而是从一个脚本。这在没有规则
的
情况下工作得很好,只需要生成正常
的
解析函数。我尝试在我
的
解析函数中生成请求
的
基础上创建一个爬虫。结果是:我只刮了一个URL,但没有刮到域。from
scrapy
.spiders import
CrawlSpider
, Rule from
scrapy
.linkext
浏览 2
提问于2019-11-18
得票数 2
回答已采纳
1
回答
为什么我无法在Srapy中
恢复
爬网?
scrapy
我尝试
恢复
使用以下命令执行
的
爬网(后来尝试
恢复
):但它不会
恢复
,而是显示以下日志输出:2013-07-17 12:36:58+0530 [
scrapy
] DEB
浏览 0
提问于2013-07-17
得票数 1
回答已采纳
1
回答
使用
Scrapy
时出现奇怪
的
错误
python
、
scrapy
、
web-crawler
我遵循教程学习刮痕,但我有一个非常奇怪
的
问题。它提取url
start_urls
并将其放置在data.json中。下面是我使用
的
代码:from
scrapy
.contrib.spiders import Rule name = "scholar" allowed_domains = ["mininova.org/&q
浏览 1
提问于2014-12-26
得票数 0
回答已采纳
1
回答
错误
:蜘蛛必须返回请求,BaseItem,dict或None,GET中
的
“set”
python
、
web-scraping
、
scrapy
我试图索引goanime1.com中包含“Url.The /”
的
页面,该页面在以前只工作过不同
的
站点,但由于原因,像这样
的
错误
出现在我
的
日志中--
scrapy
.core.scraper
错误
: Spiderimport
scrapy
from
scrapy
.spiders import
CrawlSpid
浏览 0
提问于2019-08-13
得票数 0
回答已采纳
1
回答
刮擦蜘蛛不遵循链接和
错误
python
、
web-scraping
、
scrapy
、
scrapy-spider
我试图写我
的
第一个网络爬虫/数据提取器使用刮刮,并无法得到它
的
后续链接。我也收到了一个
错误
: 有谁知道我怎样才能让它跟随页面上
的
链接并消除
错误
呢?import
scrapy
fr
浏览 2
提问于2017-03-29
得票数 2
回答已采纳
1
回答
创建一个通用
的
刮伤蜘蛛和多个特定
的
python
、
scrapy
、
scrapy-spider
有genericspider.pyimport
scrapy
def __init__(self,
start_urls
=[], finditemprop='', keywords='', **kwargs): <em
浏览 1
提问于2017-06-17
得票数 0
回答已采纳
1
回答
如何在继承
的
CrawlSpider
中重用基于抓取蜘蛛
的
解析方法?
python
、
web-scraping
、
scrapy
、
scrapy-spider
我现在有一个基于蜘蛛
的
蜘蛛,我编写它是为了爬行
start_urls
的
输入JSON数组。from
scrapy
.spider import Spiderfrom
scrapy
.contrib.linkextractors.sgmlcomponent/virtuemart/shipping-accessories/nitride-ak47
浏览 2
提问于2015-01-22
得票数 4
回答已采纳
2
回答
刮伤Start_URL不正确
python
、
url
、
scrapy
、
scrapy-spider
这意味着
scrapy
打开并加载telnet,但永远不会连接。当我使用 (我从“检查(铬)”中
的
最上面一行得到)时,它会爬行,但看起来这是完全
错误
的
站点。from
scrapy
.spiders import
CrawlSpider
, Rulefrom
scrapy
.selectorimport Selector from kidscamp_com.items
浏览 0
提问于2016-04-12
得票数 0
2
回答
Scrapy
不是提取数据,css选择器是正确
的
。
css
、
scrapy
这是我
的
第一个刮刀,我有点麻烦。首先,我创建了我
的
css选择器,它们在使用
scrapy
时工作。当我运行我
的
蜘蛛时,它只返回以下内容2017] INFO: Spider closed (finished)我
的
蜘蛛长得像这样 import <e
浏览 3
提问于2017-10-26
得票数 0
回答已采纳
1
回答
爬行无穷无尽
python
、
xpath
、
web-scraping
、
scrapy
、
web-crawler
我
的
蜘蛛应该能够爬行整个域
的
每个链接,并且应该识别,如果它是一个产品链接或者例如一个分类链接,但是只会将产品链接写到项中。在这个过程之后,它应该将链接保存在我
的
列表中。Problem Spider收集所有链接,而不是解析包含"-a“
的
链接import
scrapy
from
scrapy</e
浏览 2
提问于2020-08-04
得票数 0
回答已采纳
1
回答
在有刮痕
的
网站上爬行所有评论
python
、
scrapy
我试图抓取所有的评论在一个购物网站上使用
Scrapy
。我找到了这个密码:from
scrapy
.spiders import
CrawlSpider
, Rulename = 'deneme'<
浏览 0
提问于2018-05-23
得票数 0
回答已采纳
1
回答
如何跟踪特定
的
链接和刮刮内容使用刮除?
python
、
html
、
web-scraping
、
scrapy
所有页面都以同样
的
方式链接在主页上。<body></body>从<
浏览 2
提问于2014-04-09
得票数 2
2
回答
如何使用请求库从基本url爬行到
scrapy
中
的
另一个url。
python
、
scrapy
import
scrapy
from
scrapy
.contrib.spiders import
CrawlSpider
from
scrapy
.http import Request name = 'nextli
浏览 0
提问于2017-11-21
得票数 4
1
回答
Scrapy
Crawler多个域在检索源页面后没有
错误
地完成
python-3.x
、
scrapy
尝试让
Scrapy
抓取多个域。我让它工作了很短时间,但有些东西改变了,我不知道是什么。我
的
理解是,带有规则
的
"
CrawlSpider
“应该遵循任何允许
的
链接,直到深度设置或域名耗尽。import
scrapy
from
scrapy
.linkextractors import LinkExtractor编辑: 好
的
,只
浏览 29
提问于2018-06-03
得票数 1
回答已采纳
3
回答
Scrapy
,仅遵循内部URLS,但提取找到
的
所有链接
python
、
scrapy
、
web-crawler
、
scrape
、
scrapy-spider
我想从一个给定
的
网站使用
Scrapy
获得所有外部链接。使用下面的代码,爬虫也会抓取外部链接:from
scrapy
.contrib.linkextractorsimport LinkExtractor name = 'crawlte
浏览 0
提问于2015-01-15
得票数 16
回答已采纳
1
回答
如何使用
Scrapy
进行分页并访问每个页面上
的
所有链接
python
、
web-scraping
、
scrapy
我有下面的蜘蛛,我尝试结合分页和规则访问每个页面上
的
链接。import
scrapy
from
scrapy
.spiders import
CrawlSpider
,Rule name = "paging"
start_urls
= ['https://a
浏览 3
提问于2022-03-04
得票数 0
回答已采纳
2
回答
Scrapy
CrawlSpider
不会抓取第一个登录页面
python
、
scrapy
、
web-crawler
我是
Scrapy
的
新手,我正在做一个抓取练习,我正在使用
CrawlSpider
。尽管
Scrapy
框架工作得很好,而且它遵循相关
的
链接,但我似乎不能让
CrawlSpider
抓取第一个链接(主页/登录页)。相反,它会直接抓取规则确定
的
链接,但不会抓取链接所在
的
登录页面。我不知道如何修复这个问题,因为不建议覆盖
CrawlSpider
的
解析方法。修改follow=True/False也不会产生任何好<em
浏览 0
提问于2013-04-05
得票数 16
回答已采纳
2
回答
Python/
Scrapy
转到其他URL
python
、
scrapy
所以我正在做一个关于
scrapy
的
小项目,我对python和
scrapy
还是个新手。basicurl = "canadianlawlist.com/" products = response.xpathsearchresult_item_regular"]/a/@href').extract
浏览 21
提问于2018-08-15
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫CrawlSpider原理
Scrapy网络爬虫框架实际案例讲解,Python爬虫原来如此简单!
Scrapy框架的使用之Scrapy通用爬虫
使用 Scrapy 构建一个网络爬虫
Scrapy 爬坑记录
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券