腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
使用
带有
规则
的
start_requests
进行
抓取
、
我找不到任何
使用
带有
规则
的
start_requests
的
解决方案,我也没有在互联网上看到这两个
的
例子。我
的
目的很简单,我想重新定义start_request函数,以获得捕获所有异常
的
能力,并在请求中
使用
meta。www.oreilly.com/library/view/practical-postgresql/9781449309770/ch04s05.html
浏览 31
提问于2019-06-23
得票数 3
回答已采纳
1
回答
字符串中匹配单词
的
SgmlLinkExtractor和正则表达式
、
、
我正在
使用
scrapy中
的
SgmlLinkExtractor功能来解析特定
的
urls。
Start_requests
(自我):.....放弃请求(url.strip(),callbackA)
规则
=
规则
(SgmlLinkExtractor(allow=()),callback=cal
浏览 1
提问于2012-07-20
得票数 0
1
回答
start_urls
的
Scrapy CrawlSpider -错误恢复
我正在
使用
带有
errback
的
规则
链接提取器
的
CrawlSpider。 我
使用
parse_start_url来解析start_urls,但我也需要errback来解析它们。return self.my_parse(response) # parse responses 我面临
的
问题是,只有提取
的
链接才会调用errback,而不是start_urls。我不能
使用
浏览 21
提问于2020-09-23
得票数 0
1
回答
Scrapy:如何
使用
start_requests
向每个请求添加参数?
我正在
使用
scrapy 2.1,我从分类页面中
抓取
内容,这些页面被分页。默认结果集是20,我希望将其增加到1000,以便请求查看器页面。/category1
规则
: # parse all index pages LinkExtractor),
浏览 16
提问于2020-06-01
得票数 0
1
回答
crawlSpider似乎没有遵循
规则
、
、
、
、
这是我
的
密码。实际上,我遵循了"“中
的
例子,似乎我在某个地方犯了一个错误。import scrapy from scrapy.spiders import CrawlSpider, Rulerestrict_xpaths=('//*[contains(@class, "next_
浏览 6
提问于2015-12-17
得票数 0
回答已采纳
1
回答
我能用Scrapy提取这个XHR数据吗?
、
例如,我希望
使用
page=1遍历这些<a href=\"/@eberhardgross\">\n,比如前100个页面,并提取urls
的
每个实例。最终,只是尝试获取用户名,但是页面上还有其他<a href="">,但是如果我可以提取用户名,那就太好了,但是如果我必须获取所有的<a href="">,那就好了,我可以对它们
进行
排序,只获取@。import scrapy
浏览 0
提问于2019-12-18
得票数 0
1
回答
刮伤:
使用
start_requests
()
的
正确方法是什么?
、
这就是我
的
蜘蛛是如何建立起来
的
name = 'custombot' ) def
start_requests
(self):start_urls中指定
的
url是需要通过
浏览 0
提问于2014-02-11
得票数 12
2
回答
Scrapy不会
抓取
整个网站
我试着用认证系统
抓取
整个网站。没有我
的
auth函数,一切都可以正常工作。当我
使用
我
的
auth函数时,只
抓取
登录和
抓取
主页。为什么它不
抓取
规则
部分中定义
的
所有链接?login.php' Rule(LinkExtractor(), callback='parse_item', follow=True), def
start_reque
浏览 22
提问于2019-06-03
得票数 0
回答已采纳
1
回答
无法从爬行器获取urls计数(Scrapy)
、
、
、
我正在尝试获取要在SitemapSpider中
抓取
的
urls数量。我试图重写
start_requests
方法,但它输出0。我有一个包含数以千计
的
urls
的
sitemap_url。我想要计算这些urls
的
数量。 r = super(
浏览 0
提问于2017-10-22
得票数 0
1
回答
从数据库中获取start_urls
、
、
作为我
的
数据库保存这些链接和标题2: link : 'http://test.com/id, title : 'english' 如果我能
浏览 4
提问于2014-11-18
得票数 2
2
回答
在scrapy
的
start_requests
()中返回项目
、
我正在写一个
抓取
许多urls作为输入
的
爬虫,并将它们分类为类别(作为项目返回)。这些URL通过我
的
爬虫提供给爬虫
start_requests
()方法。有些网址可以在不下载
的
情况下
进行
分类,所以我想yield直接
使用
Item为他们在
start_requests
(),这是scrapy所禁止
的
。我怎么才能绕过这一步呢?我曾考虑过在自定义中间件中捕获这些请求,这将使它们变成虚假
的
Response对象,然后我可以将它们转换为I
浏览 105
提问于2016-02-10
得票数 5
回答已采纳
1
回答
TypeError:“_csv.reader”对象不可调用
、
、
你好,我是一个相对
的
初学者,我正在
抓取
一个网站。我想
使用
csv文件中
的
urls来
抓取
一个网站,但我在这方面做得很失败。TypeError is not callable data = csv.reader(l) for urls in dat
浏览 0
提问于2018-08-31
得票数 0
1
回答
如何在旋转代理中
使用
scrapy splash?
、
、
、
、
我仅通过
使用
以下内容作为请求才能成功
抓取
js内容。def
start_requests
(self): yield scrapy.Request(, ) 如何在
抓取</e
浏览 10
提问于2017-08-14
得票数 1
2
回答
使用
scrapy从不同
的
站点提取信息
、
我刚开始接触scrapy,我花了一整晚
的
时间试图弄清楚如何在我
的
项目中
使用
它。假设我有以下网站: www.amazon.com www.ebay.com www.buydirect.com谢谢
浏览 4
提问于2013-07-10
得票数 2
回答已采纳
3
回答
刮痕在壳中起作用,但当我叫蜘蛛时就不行了。
、
、
在过去
的
几个小时里,我一直在研究这个问题,但是我不知道我做错了什么。当我
使用
scrapy中
的
选择器运行xpath状态时,该语句将按预期工作。然而,当我试图在我
的
蜘蛛中
使用
相同
的
语句时,我会得到一个空集。有人知道我做错了什么吗?
浏览 6
提问于2014-02-19
得票数 1
回答已采纳
1
回答
Scrapy和rules
、
、
我是从Scrapy开始
的
,我成功地制作了几个蜘蛛攻击同一个网站。 第一个获取整个站点中列出
的
产品,除了它们
的
价格(因为价格对未登录
的
用户是隐藏
的
),第二个登录网站。我
的
问题看起来有点奇怪,当我合并两个代码时:结果不起作用!主要
的
问题是
规则
没有被处理,就像它们不被Scrapy调用一样。因为程序必须登录到网站,所以我必须覆盖
start_requests
,但当我覆盖它时,
规则
不会被处理。我正在研究文档,但我不明白框架是如何
浏览 15
提问于2020-06-05
得票数 0
回答已采纳
1
回答
在实际
抓取
数据之前,scrapy是否有可能导航链接?
、
我一直在学习一些粗糙
的
教程,我有一个问题(我对这个问题非常陌生,所以如果这是个愚蠢
的
问题,我很抱歉)。到目前为止,我所看到
的
大部分内容都涉及到:3)告诉刮刮者如何找到要刮
的
“下一页” 我想知道
的
是,当数据本身不在起始页面时,我是否能够
使用
scrapy刮取数据?例如,我有一个链接,去一个论坛。该论坛包含几个子论坛
的
链接。每个子论坛都有几个线程
的
链接。每个线程
浏览 0
提问于2018-10-18
得票数 0
回答已采纳
1
回答
在scrapy中启动请求中
的
http://url调用
、
、
、
我正在
使用
scrapy从网站上
抓取
数据 request = scrapy.Request(url="http://www.xxxxx.com",callback=self.parse ,dont_filter = True,)从
start_requests
请求url时,我遇到错误2018
浏览 2
提问于2018-06-11
得票数 1
1
回答
抓取
登录imdb
、
、
、
我有一个scrapy代码,查找与给定标题相关
的
列表,然后从每个列表
的
第一页下载其他标题评级。它工作得很好。然而, 有没有可能我可以让这个代码用我
的
imdb登录登录,然后从这些列表中下载我自己
的
评级?
浏览 6
提问于2020-05-05
得票数 0
1
回答
在scrapy中处理启动请求操作
、
当我提交请求时,我面临着奇怪
的
行为,理想情况下,每个请求都会在6秒后产生,但实际发生
的
情况是,在60 (6*10)秒后,所有请求都会同时发出,我能够通过CONCURRENT_REQUESTS=1解决这个问题open_in_browser name = 'Test' def
start_requests
(我正在
使用
time.sl
浏览 3
提问于2020-02-07
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券