腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
start_urls
的
Scrapy
CrawlSpider
-
错误
恢复
scrapy
我正在使用带有errback
的
规则链接提取器
的
CrawlSpider
。 我使用parse_start_url来解析
start_urls
,但我也需要errback来解析它们。class CS(
CrawlSpider
): rules = (Rule(LinkExtractor(allow=[], deny=[]), follow=True,只有提取
的
链接才会调用errback,而不是
start_urls
。我不能使用
浏览 21
提问于2020-09-23
得票数 0
2
回答
刮掉
的
CrawlSpider
不跟随链接
python
、
web-scraping
、
web-crawler
、
scrapy
、
scrapy-spider
我正在尝试从这个类别页面上
的
所有(#123)详细页面中爬行一些属性-- ,但是
scrapy
无法遵循我设置
的
链接模式,我检查了刮伤文档和一些教程,但是没有幸运!以下是代码:from
scrapy
.contrib.spidersimport
CrawlSpider
, Rule class Stinkybklyn(
Crawl
浏览 3
提问于2015-06-09
得票数 2
回答已采纳
1
回答
解析回调没有定义--简单
的
Webscraper (
Scrapy
)仍然没有运行
python
、
scrapy
、
web-crawler
我试着开始我
的
刮刀不是从终端,而是从一个脚本。这在没有规则
的
情况下工作得很好,只需要生成正常
的
解析函数。我尝试在我
的
解析函数中生成请求
的
基础上创建一个爬虫。结果是:我只刮了一个URL,但没有刮到域。from
scrapy
.spiders import
CrawlSpider
, Rule from
scrapy
.linkext
浏览 2
提问于2019-11-18
得票数 2
回答已采纳
1
回答
为什么我无法在Srapy中
恢复
爬网?
scrapy
我尝试
恢复
使用以下命令执行
的
爬网(后来尝试
恢复
):但它不会
恢复
,而是显示以下日志输出:2013-07-17 12:36:58+0530 [
scrapy
] DEB
浏览 0
提问于2013-07-17
得票数 1
回答已采纳
1
回答
使用
Scrapy
时出现奇怪
的
错误
python
、
scrapy
、
web-crawler
我遵循教程学习刮痕,但我有一个非常奇怪
的
问题。它提取url
start_urls
并将其放置在data.json中。下面是我使用
的
代码:from
scrapy
.contrib.spiders import Rule name = "scholar" allowed_domains = ["mininova.org/&q
浏览 1
提问于2014-12-26
得票数 0
回答已采纳
1
回答
错误
:蜘蛛必须返回请求,BaseItem,dict或None,GET中
的
“set”
python
、
web-scraping
、
scrapy
我试图索引goanime1.com中包含“Url.The /”
的
页面,该页面在以前只工作过不同
的
站点,但由于原因,像这样
的
错误
出现在我
的
日志中--
scrapy
.core.scraper
错误
: Spiderimport
scrapy
from
scrapy
.spiders import
CrawlSpid
浏览 0
提问于2019-08-13
得票数 0
回答已采纳
1
回答
刮擦蜘蛛不遵循链接和
错误
python
、
web-scraping
、
scrapy
、
scrapy-spider
我试图写我
的
第一个网络爬虫/数据提取器使用刮刮,并无法得到它
的
后续链接。我也收到了一个
错误
: 有谁知道我怎样才能让它跟随页面上
的
链接并消除
错误
呢?import
scrapy
fr
浏览 2
提问于2017-03-29
得票数 2
回答已采纳
1
回答
创建一个通用
的
刮伤蜘蛛和多个特定
的
python
、
scrapy
、
scrapy-spider
有genericspider.pyimport
scrapy
def __init__(self,
start_urls
=[], finditemprop='', keywords='', **kwargs): <em
浏览 1
提问于2017-06-17
得票数 0
回答已采纳
1
回答
如何在继承
的
CrawlSpider
中重用基于抓取蜘蛛
的
解析方法?
python
、
web-scraping
、
scrapy
、
scrapy-spider
我现在有一个基于蜘蛛
的
蜘蛛,我编写它是为了爬行
start_urls
的
输入JSON数组。from
scrapy
.spider import Spiderfrom
scrapy
.contrib.linkextractors.sgmlcomponent/virtuemart/shipping-accessories/nitride-ak47
浏览 2
提问于2015-01-22
得票数 4
回答已采纳
2
回答
刮伤Start_URL不正确
python
、
url
、
scrapy
、
scrapy-spider
这意味着
scrapy
打开并加载telnet,但永远不会连接。当我使用 (我从“检查(铬)”中
的
最上面一行得到)时,它会爬行,但看起来这是完全
错误
的
站点。from
scrapy
.spiders import
CrawlSpider
, Rulefrom
scrapy
.selectorimport Selector from kidscamp_com.items
浏览 0
提问于2016-04-12
得票数 0
2
回答
Scrapy
不是提取数据,css选择器是正确
的
。
css
、
scrapy
这是我
的
第一个刮刀,我有点麻烦。首先,我创建了我
的
css选择器,它们在使用
scrapy
时工作。当我运行我
的
蜘蛛时,它只返回以下内容2017] INFO: Spider closed (finished)我
的
蜘蛛长得像这样 import <e
浏览 3
提问于2017-10-26
得票数 0
回答已采纳
1
回答
爬行无穷无尽
python
、
xpath
、
web-scraping
、
scrapy
、
web-crawler
我
的
蜘蛛应该能够爬行整个域
的
每个链接,并且应该识别,如果它是一个产品链接或者例如一个分类链接,但是只会将产品链接写到项中。在这个过程之后,它应该将链接保存在我
的
列表中。Problem Spider收集所有链接,而不是解析包含"-a“
的
链接import
scrapy
from
scrapy</e
浏览 2
提问于2020-08-04
得票数 0
回答已采纳
1
回答
在有刮痕
的
网站上爬行所有评论
python
、
scrapy
我试图抓取所有的评论在一个购物网站上使用
Scrapy
。我找到了这个密码:from
scrapy
.spiders import
CrawlSpider
, Rulename = 'deneme'<
浏览 0
提问于2018-05-23
得票数 0
回答已采纳
1
回答
如何跟踪特定
的
链接和刮刮内容使用刮除?
python
、
html
、
web-scraping
、
scrapy
所有页面都以同样
的
方式链接在主页上。<body></body>从<
浏览 2
提问于2014-04-09
得票数 2
2
回答
如何使用请求库从基本url爬行到
scrapy
中
的
另一个url。
python
、
scrapy
import
scrapy
from
scrapy
.contrib.spiders import
CrawlSpider
from
scrapy
.http import Request name = 'nextli
浏览 0
提问于2017-11-21
得票数 4
1
回答
Scrapy
Crawler多个域在检索源页面后没有
错误
地完成
python-3.x
、
scrapy
尝试让
Scrapy
抓取多个域。我让它工作了很短时间,但有些东西改变了,我不知道是什么。我
的
理解是,带有规则
的
"
CrawlSpider
“应该遵循任何允许
的
链接,直到深度设置或域名耗尽。import
scrapy
from
scrapy
.linkextractors import LinkExtractor编辑: 好
的
,只
浏览 29
提问于2018-06-03
得票数 1
回答已采纳
3
回答
Scrapy
,仅遵循内部URLS,但提取找到
的
所有链接
python
、
scrapy
、
web-crawler
、
scrape
、
scrapy-spider
我想从一个给定
的
网站使用
Scrapy
获得所有外部链接。使用下面的代码,爬虫也会抓取外部链接:from
scrapy
.contrib.linkextractorsimport LinkExtractor name = 'crawlte
浏览 0
提问于2015-01-15
得票数 16
回答已采纳
1
回答
如何使用
Scrapy
进行分页并访问每个页面上
的
所有链接
python
、
web-scraping
、
scrapy
我有下面的蜘蛛,我尝试结合分页和规则访问每个页面上
的
链接。import
scrapy
from
scrapy
.spiders import
CrawlSpider
,Rule name = "paging"
start_urls
= ['https://a
浏览 3
提问于2022-03-04
得票数 0
回答已采纳
2
回答
Scrapy
CrawlSpider
不会抓取第一个登录页面
python
、
scrapy
、
web-crawler
我是
Scrapy
的
新手,我正在做一个抓取练习,我正在使用
CrawlSpider
。尽管
Scrapy
框架工作得很好,而且它遵循相关
的
链接,但我似乎不能让
CrawlSpider
抓取第一个链接(主页/登录页)。相反,它会直接抓取规则确定
的
链接,但不会抓取链接所在
的
登录页面。我不知道如何修复这个问题,因为不建议覆盖
CrawlSpider
的
解析方法。修改follow=True/False也不会产生任何好<em
浏览 0
提问于2013-04-05
得票数 16
回答已采纳
2
回答
Python/
Scrapy
转到其他URL
python
、
scrapy
所以我正在做一个关于
scrapy
的
小项目,我对python和
scrapy
还是个新手。basicurl = "canadianlawlist.com/" products = response.xpathsearchresult_item_regular"]/a/@href').extract
浏览 21
提问于2018-08-15
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫CrawlSpider原理
Scrapy网络爬虫框架实际案例讲解,Python爬虫原来如此简单!
Scrapy框架的使用之Scrapy通用爬虫
使用 Scrapy 构建一个网络爬虫
Scrapy 爬坑记录
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券