腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
未
执行
CrawlSpider
的
所有
规则
python
、
scrapy
我有下面的刮板: from
scrapy
.crawler import CrawlerProcessfrom
scrapy
.spiders import
CrawlSpider
, Rule name = "upcoming为了解决这个问题,我把start_urls改成了一个“锦标赛”页面的网址,这个网页是由
浏览 22
提问于2021-11-19
得票数 0
回答已采纳
1
回答
Scrapy
-
未
调用Parse_item
html-parsing
、
scrapy
我有两个主要问题from
scrapy
.spider import BaseSpiderfrom
scrapy
浏览 0
提问于2012-07-09
得票数 0
回答已采纳
1
回答
scrapy
LinkExtractor会检查每个yield(ed)请求中
的
链接吗?
python
、
scrapy
Scrapy
具有LinkExtractor类,该类跟踪链接并返回回调 Linkextractor是否检查来自每个yield(ed) Request
的
响应中
的
链接?是否包含被其他
规则
yield(ed)
的
页面中
的
链接?
浏览 1
提问于2015-08-13
得票数 0
1
回答
解析回调没有定义--简单
的
Webscraper (
Scrapy
)仍然没有运行
python
、
scrapy
、
web-crawler
我试着开始我
的
刮刀不是从终端,而是从一个脚本。这在没有
规则
的
情况下工作得很好,只需要生成正常
的
解析函数。一旦我使用
规则
并将“callback=”解析“”更改为“callback=”“parse_item”,任何事情都不再起作用。 from
scrap
浏览 2
提问于2019-11-18
得票数 2
回答已采纳
1
回答
Scrapy
-排除不需要
的
URL(如评论)
python
、
web-crawler
、
scrapy
我正在使用
Scrapy
抓取网站以获取
所有
页面,但我当前
的
代码
规则
仍然允许我获取不需要
的
URL,例如除了帖子
的
主URL之外
的
评论链接"“。我可以在
规则
中添加什么来排除这些不需要
的
项目?下面是我当前
的
代码:from
scrapy
.contrib.lin
浏览 2
提问于2013-05-27
得票数 3
1
回答
刮取
规则
不调用解析方法。
python
、
scrapy
、
scrapy-spider
我是新刮刮,并试图抓取一个域,跟踪
所有
内部链接,并用模式/示例/*抓取网址
的
标题。class BidItem(
scrapy
.Item): title =
scrapy<
浏览 1
提问于2018-11-22
得票数 1
回答已采纳
1
回答
scrapy
是如何使用
规则
的
?
python
、
scrapy
、
response
我刚开始使用
Scrapy
,我想了解这些
规则
是如何在
CrawlSpider
中使用
的
。如果我有一个在亚利桑那州图森市
的
纸杯蛋糕列表
的
黄页中爬行
的
规则
,那么产生一个URL请求如何激活该
规则
--具体地说,它是如何激活restrict_xpath属性
的
? 谢谢。
浏览 1
提问于2014-08-17
得票数 23
回答已采纳
2
回答
scrapy
版本0.22.1
的
多页抓取- "cannot import name
CrawlSpider
“错误是什么意思?
python
、
python-2.7
、
scrapy-spider
我正在尝试编写一个爬虫来跨多个页面爬行,通过以下网址:我正在使用
Scrapy
版本0.22.1来做这件事。但是,我收到一条"cannot import name
CrawlSpider
“消息。我已经粘贴了下面蜘蛛
的
代码。有人能确定我哪里出错了吗?from
scrapy
.spider import
CrawlSpider
, Rule from
scrapy
.linkextractors.sgml import SgmlLinkExtractorfrom
scrapy</em
浏览 0
提问于2015-02-14
得票数 1
1
回答
爬行蜘蛛:蜘蛛错误处理引发NotImpmentedError
scrapy
、
scrapy-spider
当我运行我
的
蜘蛛时,我会得到一个蜘蛛错误处理页面和一个蜘蛛豁免,但是如果我使用
scrapy
fetch,就会输出html响应,所以不是这个站点不可用。输出与我
的
项、蜘蛛和设置值一起包括在下面。Items.py# define the fields for your item here like:title =
scrapy
.Field() files =
scr
浏览 2
提问于2016-06-03
得票数 1
回答已采纳
1
回答
Scrapy
CrawlSpider
下一页不工作
pagination
、
scrapy
我想要从每张卡片中抓取
所有
项目,第一个
规则
工作正常,但第二个
规则
意味着分页
规则
不起作用。这是我
的
代码: import
scrapy
from
scrapy
.spiders import
CrawlSpider
, Rule name =
浏览 12
提问于2021-07-04
得票数 1
回答已采纳
2
回答
使用
scrapy
递归地爬行站点
python
、
web-scraping
、
scrapy
这是我到目前为止基于编写
的
代码(原始代码根本不工作,所以我尝试重新构建它)from
scrapy
.linkextractorsimport LinkExtractorfrom
scrapy
.selector importHtmlXPathSelector from nettuts.item
浏览 2
提问于2015-12-28
得票数 8
2
回答
如何修复
Scrapy
在深度爬行中不起作用
html
、
hyperlink
、
web-scraping
、
scrapy
、
web-crawler
我目前正在尝试使用
scrapy
创建一个小型
的
web抓取原型。我目前
的
问题与链接提取和跟踪相关。我试图让
scrapy
浏览页面并找到指向页面的链接(目前不是图像和其他内容),但我不知道如何正确设置参数。这是我正在使用
的
蜘蛛: session_id = -1 rules = [#not relevent code that gives an URL
浏览 2
提问于2017-03-01
得票数 1
1
回答
尝试使用
Scrapy
解析JSON文件
python
、
json
、
web-scraping
、
scrapy
我正在尝试解析类似于 1
的
文件,但是对于很多经度和纬度。爬虫循环遍历
所有
的网页,但没有输出任何东西。这是我
的
代码:import json from
scrapy
.http import Requestfrom
scrapy
.contrib.spiders import
CrawlSpider
, Rule class DmozSpider(
CrawlSpide
浏览 8
提问于2015-05-06
得票数 0
回答已采纳
1
回答
如何用
Scrapy
抓取一个有点奇怪
的
URL
python
、
scrapy
、
scrape
所以基本上我想使用
Scrapy
.org来建立一个论坛。我遇到
的
问题是,到每个线程
的
链接现在都是沿着这条线
的
,如果我尝试只输入它不起作用,它不会显示具有该ID
的
主题,所以我真的不知道如何才能生成线程名称和每个主题
的
id,以便能够抓取它。我真的很感谢在这个问题上
的
一些帮助,提前谢谢!
浏览 3
提问于2013-08-29
得票数 0
2
回答
使用
Scrapy
下载
所有
JS文件?
python
、
scrapy
我试图爬行一个网站,搜索
所有
的JS文件来下载它们。我刚接触
Scrapy
,我发现我可以使用
CrawlSpider
,但我似乎对LinkExtractors有一个问题,因为我
的
解析器没有
执行
。import
scrapy
from
scrapy
.linkextractors import LinkExtractorclass JSDownloader(<
浏览 25
提问于2021-02-17
得票数 0
回答已采纳
1
回答
抓取爬行器输出
python
、
scrapy
、
scrapy-spider
我在
Scrapy
文档中
的
中有一个问题。它似乎爬得很好,但我很难将它输出到CSV文件(或任何真正
的
文件)。所以,我
的
问题是,我可以用这个:还是我必须创建一个import
scrapy
from
scrapy
.contrib.linkextrac
浏览 4
提问于2014-10-23
得票数 0
回答已采纳
1
回答
如何获取
所有
新闻文章
的
urls?
python
、
url
、
web-scraping
、
scrapy
、
urlfetch
我可以很容易地从网站上抓取
所有
的新闻文章,其中文章
的
urls是这样组织
的
:http://samplenewsagency.com/en/news/12563。但对于像http://gcaptain.com这样以这种方式组织新闻
的
网站来说,我们能做些什么呢:http://gcaptain.com/chinese-aircraft-carrier-sails-hong-kong-maiden-visit如何查找
所有</e
浏览 19
提问于2017-07-09
得票数 0
回答已采纳
1
回答
CrawlSpider
无法解析
Scrapy
中
的
多页
python
、
scrapy
我创建
的
CrawlSpider
没有正确地完成它
的
工作。它解析第一页,然后停止,而不继续到下一页。有些事我做错了但没能察觉到。希望外面的人给我一个提示,我该怎么做才能纠正它。()
CrawlSpider
名称"craigs.py“,包含: from
scrapy
.contrib.spiders import
CrawlSpider
, Rulefrom
scrapy
.linkextractors import LinkExtra
浏览 4
提问于2017-04-04
得票数 1
回答已采纳
1
回答
如何使用
Scrapy
进行分页并访问每个页面上
的
所有
链接
python
、
web-scraping
、
scrapy
我有下面的蜘蛛,我尝试结合分页和
规则
访问每个页面上
的
链接。import
scrapy
from
scrapy
.spiders import
CrawlSpider
,Rule name = "paging" start_urls = ['https://a
浏览 3
提问于2022-03-04
得票数 0
回答已采纳
1
回答
刮除包含特定文本
的
URL
python
、
scrapy
我想要构建
的
Scrapy
程序有问题。代码如下。import
scrapy
from
scrapy
.linkextractors import LinkExtractorclass LinkscrawlItem(
scrapy
.Item): attr =
scrapy
.Field() cl
浏览 1
提问于2022-02-22
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫CrawlSpider原理
初识爬虫类CrawlSpider
Scrapy框架的使用之Scrapy通用爬虫
功能比Scrapy强,却使用最方便的Gerapy分布式爬虫管理框架
使用 Scrapy 构建一个网络爬虫
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券