腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
Scrapy
对
多个
URL
进行
相同
的
解析
?
web-scraping
、
scrapy
、
scrape
嗨,我有一个关于我
的
蜘蛛脚本
的
问题,我想让我
的
脚本尽可能地可读,我想尽可能多地保存代码。可以对不同
的
URL
使用
相同
的
解析
吗?我只想每页抓取10个项目,并将其保存在items.py
的
不同项目功能中 这是我
的
代码 def start_requests(self): #I have 3
URL
's Here yield
scrapy
.Request(&
浏览 36
提问于2019-05-14
得票数 0
2
回答
如何
利用蜘蛛
的
产量
python
、
scrapy
、
web-crawler
、
yield
我
对
Scrapy
很陌生,
对
python也很陌生。我有
多个
yield,在蜘蛛体内有
相同
的
身体。yield { 'html' : response.css('body').extract(), 'title': response.css('title::text').extract_fir
浏览 0
提问于2018-10-24
得票数 1
回答已采纳
1
回答
按DFS顺序不爬行
python
、
multithreading
、
scrapy
、
depth-first-search
print "
URL
FROM PARSE_DATA_AGAIN: ", response.
url
如果
Scrapy
按DFS顺序
进行
搜索,我应该看到:“
浏览 4
提问于2015-09-11
得票数 2
回答已采纳
1
回答
在
scrapy
中连接爬行器
python
、
scrapy
、
scrapy-spider
我想在
Scrapy
中连接
多个
爬虫,这样一个蜘蛛
的
输出就可以供给另一个蜘蛛。我知道
Scrapy
用于连接
解析
函数和
使用
请求
的
Meta参数来通信项
的
方式。class MySpider(
scrapy
.Spider): def parse(self, response): yie
浏览 5
提问于2016-05-13
得票数 0
3
回答
Scrapy
:
对
同一个
URL
运行
多个
嵌套搜索
python
、
scrapy
我
对
Python非常陌生,
对
Scrapy
非常陌生。我正在尝试构建一个蜘蛛,它将转到给定
的
URL
,并在该站点中运行
多个
嵌套搜索。存储基本
URL
->家庭->厨房->电器:
解析
结果寻找“水壶”。 存储基本
URL
->主页->电子->视频:
解析
结果寻找"dvd播放机“。存储基本
URL
-> Home -> Garden -> Tools:
浏览 2
提问于2014-02-26
得票数 1
2
回答
如何
使用
Scrapy
python登录stackoverflow站点
python
、
scrapy
我刚刚开始学习
Scrapy
,我想尝试一些python和
scrapy
的
练习。我正在考虑从我发布
的
特定标签中获取问题列表,然后
对
其
进行
解析
。 但我不确定
如何
使用
open id和
Scrapy
登录。有没有人可以指导我,在这个
url
上我必须提交数据,因为当我输入openid时,网站会转移到openid
url
上,那么我该
如何
在那里输入密码呢?
浏览 1
提问于2012-11-19
得票数 0
回答已采纳
2
回答
如何
获取刮伤壳中
的
刮伤响应
python
、
python-2.7
、
scrapy
、
ipython
、
scrapy-spider
我
对
Scrapy
项目很陌生,我读过很多教程。它们似乎都假设您知道
如何
立即
解析
响应对象,并且可以立即调用响应回调(例如
scrapy
.Request(
url
=
url
, callback=self.parse))。但在现实中,我需要
使用
试用和错误
的
CSS选择器。
如何
取回
Scrapy
响应对象,以便能够交互地操作它?
scrapy
.Request(
url
=
url</
浏览 4
提问于2017-04-09
得票数 2
回答已采纳
1
回答
Python
Scrapy
- Selenium -请求下一页
python
、
selenium
、
scrapy
然后,在进入下一页之前,它应该获得所有指向列出
的
文章
的
链接。问题是它总是从第一个
url
("")抓取,而不是遵循我给它
的
url
。为什么下面的代码不能从我在reqeusts中传递
的
新urls中抓取?我没主意了.from
scrapy
.http.request import Requestfrom selenium.webdriver.comm
浏览 2
提问于2017-06-14
得票数 1
2
回答
比较多处理与扭曲
的
问题
python
、
twisted
、
multiprocessing
遇到了一个我要
解析
网站
的
情况。每个站点都必须有自己
的
“
解析
器”,并可能有自己
的
处理cookies/等
的
方式。 我在试着进入我
的
大脑,这将是一个更好
的
选择。选择一:我可以创建一个多处理函数,其中( masterspawn )应用程序获取一个输入
url
,然后它跨越masterspawn应用程序中
的
一个进程/函数,该进程/函数随后处理页面/
URL
的
浏览 0
提问于2010-07-31
得票数 1
2
回答
如何
使用
Python刮取单个页面的
多个
部分?
python
、
scrapy
、
scrapy-spider
假设我有一个HTML文件,其中包含
多个
具有不同结构
的
部分,需要
进行
广泛不同
的
抓取。蜘蛛布局
的
最佳实践是什么?那么,有什么最佳实践建议吗?社区
使用
的
规则或惯例?如果我多
浏览 0
提问于2017-05-07
得票数 1
回答已采纳
2
回答
在登录后刮取urls列表
scrapy
要刮除
的
站点有
多个
具有
多个
页面的项目,并且需要登录。(self, response): for
url
in f.readlines(): ... do some scraping ... ... determinethe
u
浏览 6
提问于2016-03-11
得票数 1
1
回答
匹配
多个
标签
的
刮刮爬行堆叠溢出问题
python
、
web-scraping
、
web-crawler
、
scrapy
请查找以下代码: name = 'stackoverflow' for href in response.css('.question-summary h3 a::attr(href)'):
浏览 3
提问于2015-08-21
得票数 3
回答已采纳
2
回答
如何
使用
LinkExtractor获取网站中
的
所有urls?
xpath
、
scrapy
使用
CrawSpider和LinkExtractor
的
Scrapy
似乎是一个不错
的
选择。考虑一下这个例子:from
scrapy
.contrib.spiders import CrawlSpider, Rule link = Fi
浏览 13
提问于2015-10-28
得票数 2
回答已采纳
1
回答
Python :
如何
抓取一个页面以获得将用于刮另一个页面的信息,等等?
javascript
、
python
、
selenium
、
scrapy
、
screen-scraping
我需要构建一个python脚本,它
的
目标是在“显示更多”按钮中检索一个数字。我用过
Scrapy
,但这不管用。
Scrapy
是异步
的
,根据我
的
情况,我需要
浏览 1
提问于2016-12-18
得票数 1
回答已采纳
1
回答
从一个页面中抓取多篇文章,每篇文章都有单独
的
href
python-3.x
、
scrapy
我是个新手,写了我
的
第一个爬虫,为类似的网站做了一个爬虫。我已经尝试
使用
规则和链接提取器,但它不能导航到下一页和提取。我得到错误:爬行器错误处理 (referer: None)import
scrapy
from
scrapy
.linkextractors(href)').extract() if n
浏览 1
提问于2019-07-09
得票数 1
3
回答
如何
从产量中得到结果并保存到文件中?
python
、
python-3.x
、
scrapy
我正在练习
使用
Scrapy
网络爬虫包,并有一个2部分
的
问题,因为我有点挣扎,不知道下一步该做什么: 从
scrapy
导入cmdline类TCSpider(
scrapy
.Spider)导入
scrapy
: name = "techcrunch“def start_requests(self):urls =”
url
中
的
url
:TCS
浏览 4
提问于2020-06-04
得票数 1
回答已采纳
1
回答
如何
使用
Scrapy
项并以json格式存储输出?
python
、
json
、
xpath
、
scrapy
url
": "www.
url
.com"},但是在
使用
项目之后,我看到了一些值,"}]class MyItem(
scrapy
.Item): title =
浏览 2
提问于2022-01-31
得票数 0
回答已采纳
1
回答
将
Scrapy
指向本地缓存,而不是执行正常
的
爬行过程
python
、
web-scraping
、
scrapy
我
使用
管道将
Scrapy
爬行中
的
文档缓存到数据库中,这样,如果我更改了项目
解析
逻辑,就可以重新
解析
它们,而不必再次访问服务器。 让
Scrapy
从缓存中处理而不是尝试执行常规抓取
的
最好方法是什么?我喜欢
scrapy
对
CSS和XPath选择器
的
支持,否则我会用lxml
解析
器单独访问数据库。有一段时间,我根本没有缓存文档并以正常
的
方式
使用
Scrapy
浏览 1
提问于2015-09-05
得票数 3
1
回答
如何
在完成第一页后强制
scrapy
解析
第二页
python
、
python-3.x
、
scrapy
、
scrapy-spider
我
使用
的
是
Scrapy
1.5.1版。我创建了
解析
器,它从主页
解析
urls,然后从已经
解析
的
urls中
解析
urls,等等。
Scrapy
异步工作,并
进行
并行连接。问题是,我有一些逻辑,urls应该首先
解析
,创建我已经访问过
的
urls集,要访问
的
最大urls数等。一开始,我配置了CONCURRENT_REQUESTS_PER_DOMAIN=1和CONCURRENT_R
浏览 4
提问于2018-10-28
得票数 0
1
回答
登录
解析
url
列表后
的
抓取
python
、
scrapy
、
scrapy-spider
我
对
蟒蛇不太熟悉,所以请
对
我有耐心。我有一个刮痕爬虫,它
的
工作方式,它应该,但现在我需要做一个新
的
,但这一次,它应该爬一个登录会话。所以我
的
剪贴用一个从站点地图获取
的
urls列表作为start_urls,它应该向登录表单发出请求,然后,如果登录,它应该开始
解析
我
的
列表.items.append(item) 所以这是不起作用
的
,因为我没有正确地调用
解析
器。基本
浏览 0
提问于2015-12-03
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫学习Scrapy之Spiders
从零开始的 Python 爬虫速成指南
Python爬虫入门,快速抓取大规模数据6
python爬虫系列(三)scrapy基本概念
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券