腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
如何在
scrapy
中覆盖/使用cookie
、
如果您尝试通过
URL
()直接访问语言版本,则会出现问题并返回服务器错误。from
scrapy
.spider import BaseSpiderfrom
scrapy
.contrib.spidersimport CrawlSpider, Rule from
scrap
浏览 2
提问于2012-05-20
得票数 21
2
回答
Scrapy
和cookie处理
、
、
我正在学习如何使用
scrapy
。尤其是处理cookie时会抓狂。问题是,我找不到一大堆的例子、教程或文档来帮助我完成这项工作。如果有人能提供任何材料,我将不胜感激。为了向你展示我有多迷茫,下面的代码应该显示我缺乏理解;from
scrapy
.http.cookies import CookieJar
浏览 0
提问于2013-06-06
得票数 2
回答已采纳
1
回答
从start_requests(self)解析刮取发送条件
、
、
、
第一区块码from
scrapy
.spiders import Spider
url
= 'http://www.nevermind.com/info/'
浏览 1
提问于2016-07-28
得票数 0
回答已采纳
1
回答
scrapy
未处理的异常
、
、
我在linux上使用的是
scrapy
0.16.2版本。我在运行:我得到了这个错误,它阻止了
scrapy
(挂起并且不会自动完成,只有^C停止它[-] Unhandled Error Traceback (most recent call last): File "/usr/lib/python2.7/site-packages/
浏览 2
提问于2012-11-20
得票数 2
回答已采纳
4
回答
scrapy
如何停止重定向(302)
、
、
我正在尝试用
Scrapy
抓取一个
url
。但它会将我重定向到不存在的页面。item['price'] = prc item['description'] = description return item
浏览 30
提问于2013-03-18
得票数 24
4
回答
解析中的
Scrapy
get请求
url
、
、
如何在
Scrapy
的parse()函数中获取请求
url
?我在start_urls中有很多urls,其中一些将我的爬虫重定向到主页,因此我有一个空项目。所以我需要像item['start_
url
'] = request.
url
这样的东西来存储这些urls。我在用BaseSpider。
浏览 268
提问于2013-11-20
得票数 52
回答已采纳
1
回答
动态start_urls值
、
、
) File "/usr/lib/python2.7/dist-packages/
scrapy
/http
浏览 6
提问于2014-06-16
得票数 2
1
回答
刮伤的DEFAULT_REQUEST_HEADERS不起作用
、
下面是HotSpider: import
scrapy
class HotSpider(
scrapy
.Spider):def parse(self, response):如果我更改代码以覆盖
make_requests_from_url
# -*- coding: utf-8 -*- import
scrapy</e
浏览 2
提问于2016-07-04
得票数 4
回答已采纳
1
回答
刮伤:使用start_requests()的正确方法是什么?
、
'custombot' start_urls = ['http://www.domain.com/some-
url
) return Request('http://www.domain.com/some-other-
url
', callback=self.do_so
浏览 0
提问于2014-02-11
得票数 12
4
回答
如何在抓取的CrawlSpider中访问特定的start_
url
?
、
、
我正在使用
Scrapy
,特别是
Scrapy
的CrawlSpider类来抓取包含某些关键字的web链接。web链接模型与起始
url
模型具有多对一关系,即web链接模型具有指向起始
url
模型的外键。为了将抓取的web链接正确地保存到数据库中,我需要告诉CrawlSpider的parse_item()方法,抓取的web链接属于哪个起始
url
。我该如何做呢?
Scrapy
的DjangoItem类在这方面没有帮助,因为我仍然必须显式地定义使用的起始
url
。换句话说,我如何将当前使用
浏览 1
提问于2012-05-15
得票数 7
回答已采纳
1
回答
使用scrapyd api为蜘蛛提供
url
、
、
、
schedule.json",当我检查日志时,我得到了以下错误代码: return Request(
url
, dont_filter=True) File "/u
浏览 1
提问于2014-08-24
得票数 4
回答已采纳
1
回答
将cookie传递给CrawlSpider中的后续请求
、
、
、
为了解决这个问题,我尝试将cookie保存在一个全局变量中,并重写
make_requests_from_url
(),将cookie传递给蜘蛛发出的所有后续请求。但是它仍然返回登录页面的主体。我的代码:from
scrapy
.spiders import Rulefromm=h&h=acbl&d=ACBL&o=acbh", cookies=bbo_cookies)
浏览 3
提问于2016-02-13
得票数 2
1
回答
如何通过获取结果来抓取这个ajax网站
、
、
、
、
换句话说,从
scrapy
执行ajax调用。我做了这个:from
scrapy
.http import FormRequestfrom
scrapy
.http import Requestclass MySpider(Spiderin self.start_urls
浏览 0
提问于2015-08-02
得票数 2
1
回答
ValueError:请求中缺少的方案
url
: h
、
、
()是items.py代码和setup( nameusr/local/lib/python2.7/site-packages/
scrapy
/spiders/init.py",self.make_requests_from_
url
(
url
) start_requestsself.
浏览 0
提问于2017-02-14
得票数 0
回答已采纳
1
回答
是否可以同时运行管道和爬行多个
URL
?
、
、
我的蜘蛛长得像这样from
scrapy
.spiders import CrawlSpider, Rulefrom
scrapy
.http import Request item['2'] = respons
浏览 2
提问于2016-04-13
得票数 0
回答已采纳
3
回答
刮擦用飞溅只刮1页
、
、
在任何情况下都会显示start_urls中的最后一个
URL
。对我做错了什么有什么想法吗?name = "heat" start_urls = ['https://www.expedia.com/Hotel-Search?运行这段代码后,我的csv如下所示:每个
url
都有一行,这是应该的,但是只有一行填充了信息。class HeatSpider(
scrapy<
浏览 4
提问于2016-11-01
得票数 2
回答已采纳
2
回答
Scrapy
crawler提取urls,但未命中一半回调
、
、
、
这是日志: 2015-12-25 09:02:55
Scrapy
INFO:存储csv feed (107项)位置: test.csv 2015-12-25 09:02:55
scrapy
INFO:转储
scrapy
stats:'downloader/request_bytes':68554,'downloader/request_count':217,'downloader/request_method_count
浏览 3
提问于2015-12-25
得票数 1
1
回答
使用aspx页面进行
Scrapy
身份验证
、
、
、
我相信抓取部分可以正常工作,因为我已经在一个模拟页面上尝试过了,但我之前没有做过身份验证,而且我发现网站正在重定向到一个搜索
url
。我唯一能想到的就是
scrapy
触发了搜索框?这个站点是howdidido.co.uk,我的爬行器代码如下:from
scrapy
.selector importSelectorfrom
scrapy</em
浏览 1
提问于2013-12-12
得票数 0
1
回答
是否有一种方法可以从数据库中获取初始
URL
的ID,其中包含一些函数,
make_requests_from_url
我正在从数据库中提取start
URL
,还需要ID与
URL
相关联,这样我就可以将其传递到items管道中,并与条目一起存储在表中。我使用"
make_requests_from_url
(row1)“传递start
URL
的"start_urls = []”,这构成了启动
URL
的列表。下面是我的蜘蛛代码:import mysql.connector class
浏览 1
提问于2019-08-13
得票数 0
回答已采纳
1
回答
如何使刮伤蜘蛛基于CSV文件向项添加信息
、
、
我用熊猫在文件中阅读,并根据标题为学者生成
URL
。每当一个给定的
URL
被抓取时,我的蜘蛛就会浏览学者的网页,获取标题、出版物信息,并引用该页面上列出的每一篇文章。q=allintitle%3A"+entry) start_urls = linksimport reimport urllib from
s
浏览 2
提问于2014-03-02
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python Scrapy使用实例讲解
静态URL和动态URL
Scrapy对新浪微博某关键词的爬取以及不同url中重复内容的过滤
scrapy(一)scrapy 安装问题
Python Scrapy 爬虫(二):scrapy 初试
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券