腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
Scrapy
在
抓取
主
url
之前
先
抓取
一些
其他
的
url
?
python
、
web-scraping
、
scrapy
、
web-crawler
我想要
抓取
的
主
http://192.168.1.1/robots.txt是http://192.168.1.1/adslconfig.htm,但是它首先尝试
抓取
这个
url
URL
,并且失败了,状态代码为401,并且它
的
referer头也被设置为None,所以它只是浪费了几秒钟
的
时间。这并不是唯一
的
一个,它还试图
抓取
我想要
的
主</em
浏览 17
提问于2021-09-28
得票数 0
1
回答
如何使用
scrapy
抓取
内层
url
?
python
、
scrapy
我在看
一些
在线视频
的
时候创建了一个
抓取
蜘蛛。它从网站上
抓取
个人资料
url
。我想扩展这一点,以报废数据,如地址,姓名,电话,网站网址从每个配置文件网址
抓取
。 我
在
考虑创建分离
的
刮板。一个用于
抓取
配置文件
url
。以及从
抓取
的
第一
url
中
抓取
数据
的
第二个
url
。 有没有
其他
的
解决方
浏览 22
提问于2019-04-14
得票数 1
回答已采纳
1
回答
如何确保
在
我
的
Scrapy
爬行器中解析每个
URL
python
、
beautifulsoup
、
scrapy
、
web-crawler
我尝试
在
美食博客上
抓取
食谱列表
的
每一页,
抓取
每一页上
的
食谱
URL
,然后将它们全部写入一个.txt文件。我已经添加了一个.log()来检查urls是否确实包含了我试图从其中
抓取
的
所有正确
的
URL
,当我
在
命令提示符中执行
Scrapy
时,我得到了以下确认: 2019-01-31 22:16:17 [recipes我当前
的
代码: import
scrapy</em
浏览 21
提问于2019-02-01
得票数 1
1
回答
Scrapy
,Xpath,没有结果?
html
、
python-3.x
、
xpath
、
web-scraping
、
scrapy
我正在尝试
抓取
的
URL
: https://www.controller.com/listings/aircraft/for-sale/list?SortOrder=23&scf=False&page=1 我刚接触
Scrapy
和编程,但在此
之前
,我仍然能够
抓取
一些
网站。 当我第一次尝试
抓取
上面的
URL
时,我总是遇到代码403。经过
一些
研究,我能
浏览 48
提问于2020-07-11
得票数 0
回答已采纳
1
回答
Scrapy
不跟随提取
的
链接
python
、
web-scraping
、
scrapy
、
data-extraction
Scrapy
不遵循
抓取
的
链接。当我调用这个函数时,它应该从
之前
抓取
的
链接中提取详细信息,但它不起作用,而是从start_urls中
抓取
内容。import
scrapy
name = 'olx' start_urls = ['https://www.olx.plparse(self, response):
浏览 2
提问于2021-04-17
得票数 0
1
回答
抓取
的
递归爬虫问题
python
、
recursion
、
scrapy
我试图爬行viagogo.com我想爬行
的
每一个显示从页面:我能够得到第一页
的
显示,但当我试图移动下一页它就是不爬行!下面是我
的
代码:from
scrapy
.contrib.linkextractors importViagogoItem class viagogoSpider(CrawlS
浏览 1
提问于2014-12-13
得票数 0
1
回答
Scrapy
停止
抓取
,但继续爬行
python
、
scrapy
、
web-crawler
我试图从一个网站
的
几个页面中
抓取
不同
的
信息。
在
第16页
之前
,一切正常:页面被
抓取
,
抓取
,我
的
数据库中
的
信息存储,但是
在
第16页之后,它停止
抓取
,但继续
抓取
。HTML标签是一样
的
,所以我不明白
为什么
它会停止
抓取
。Python:
url
_list = [
浏览 0
提问于2018-01-24
得票数 4
1
回答
为什么
Scrapy
只
抓取
一个页面?
scrapy
我正在尝试测试
抓取
网页
的
Scrapy
,我不明白
为什么
我
的
爬虫只
抓取
一个页面,我尝试评论规则和allowed_domains都没有成功。我想我遗漏了
一些
愚蠢
的
东西如果能帮上忙我会很感激
的
。from
scrapy
.contrib.spiders import CrawlSpider, Rulefrom
scrapy</e
浏览 3
提问于2012-03-21
得票数 1
回答已采纳
1
回答
使用
Scrapy
对网站进行分页和获取价格
python
、
python-3.x
、
scrapy
我开始关注
Scrapy
,想要一个蜘蛛来获得MTG卡
的
一些
价格。首先,我不知道我是否100%正确地使用了
在
函数开始时选择所有可用卡片
的
链接:allowed_domains = ['www.bazardebagda.com.br2-然后,如果你访问网站,我找不到如何获得卡
的
单位和价格,它们是空白
的
DIV
的
…titles =
浏览 0
提问于2019-12-07
得票数 0
3
回答
Scrapy
pause/resume是如何工作
的
?
scrapy
有人能给我解释一下
Scrapy
中
的
暂停/恢复功能是如何工作
的
吗?没有提供太多细节。我将DOWNLOAD_DELAY设置为10 seconds,这样就可以
在
处理请求
之前
停止爬行器。我本以为下次运行爬行器时,请求将不会重新生成。事实并非如此。我
在
我
的
scrapy
_cache文件夹中看到一个名为requests.queue
的
文件夹。但是,这始终是空<em
浏览 0
提问于2015-03-04
得票数 8
3
回答
我有12000个已知
的
URL
,用Python
抓取
它们最快
的
方法是什么?
python
、
web-scraping
、
scrapy
因此,我有一个从数据库中提取
的
URL
列表,我需要
抓取
和解析每个
URL
的
JSON响应。
一些
URL
返回null,而
其他
URL
返回发送到csv文件
的
信息。我目前使用
的
是
Scrapy
,但它需要大约4个小时来
抓取
这12000个
URL
。我研究过像、和这样
的
东西,但我不确定它们是否适合我
的
用例,因为它们似乎是围绕着
抓
浏览 0
提问于2020-08-25
得票数 0
1
回答
抓取
-
在
不下载文件
的
情况下从
URL
获取文件大小和类型?
python
、
header
、
request
、
web-scraping
、
scrapy
在
Scrapy
中,我想
抓取
一些
有大型.zip文件
的
页面,并检索
一些
数据(大小、
url
等)。关于那些文件。我可以这样做
的
一种方法是生成对这些urls
的
请求,但我认为这会下载文件。如何从zip
的
URL
中只获得标题?最好不要
抓取
我想要标题
的
URL
,而是以
其他
方式检索它吗?
浏览 8
提问于2014-12-22
得票数 2
回答已采纳
0
回答
Scrapy
跟随链接未获取数据
python
、
web-scraping
、
scrapy
我试图用一个简单
的
抓取
蜘蛛来跟踪一个链接列表,并从每个链接中删除数据,但我遇到了麻烦。
在
scrapy
shell中,当我重新创建脚本时,它会发送新
url
的
get请求,但是当我运行爬网时,我没有从链接中得到任何数据。我得到
的
唯一数据是从链接
之前
抓取
的
起始
url
。如何从链接中
抓取
数据?import
scrapy
class QuotesSpider(
浏览 4
提问于2017-11-26
得票数 0
回答已采纳
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我想做一个网站,显示亚马逊和易趣产品价格
的
比较。其中哪一个会工作得更好?
为什么
?我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
使用Xpath提取值时来自
Scrapy
的
空列表
python
、
xpath
、
web-scraping
、
scrapy
真的需要这个社区
的
帮助。我
的
问题是,当我使用python中
的
代码时要提取
scrapy
shell中
的
供
浏览 2
提问于2018-02-12
得票数 2
1
回答
如何报废网站上
的
所有页面(第1页直到无穷大)
python
、
xpath
、
web-scraping
、
css-selectors
、
scrapy
伙计们,我想从上
抓取
一切都好,我
抓取
它
的
成功import datetimeimport socketfrom
scrapy</e
浏览 1
提问于2016-07-25
得票数 0
回答已采纳
1
回答
这只刮伤
的
蜘蛛怎么了?只刮最后一个
url
python
、
web-scraping
、
scrapy
、
web-crawler
在
方法parse()中,蜘蛛爬行4个
url
,然后发送给parse_dir_contents()方法来
抓取
一些
数据,但是只有第4个
url
被
抓取
,我不明白
为什么
它不刮
其他
3个
url
?import
scrapy
import json name =):
浏览 0
提问于2016-06-25
得票数 0
回答已采纳
1
回答
使用Python/
Scrapy
/Urllib2进行屏幕
抓取
似乎被阻止
python
、
web-scraping
、
scrapy
、
urllib2
为了帮助我学习Python,我决定从ESPNFC网站
的
'live‘页面(比如)上截取足球评论。 breaki = getIn
浏览 0
提问于2013-12-11
得票数 0
5
回答
Scrapy
-如何识别已经
抓取
的
urls
python
、
web-crawler
、
scrapy
我每天都在用
scrapy
抓取
一个新闻网站。如何限制
scrapy
抓取
已
抓取
的
URL
。此外,
在
SgmlLinkExtractor上是否有明确
的
文档或示例。
浏览 1
提问于2010-10-06
得票数 15
1
回答
使用
scrapy
抓取
重定向
的
urls
python
、
scrapy
我正在尝试使用
抓取
来
抓取
www.mywebsite.com。这里
的
问题是
scrapy
忽略了重定向,最终结果是
抓取
了0个页面。 我如何告诉
scrapy
我需要它来
抓取
重定向
的
url
?我只需要它来爬行重定向
的
网址,而
浏览 1
提问于2016-11-27
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫入门,快速抓取大规模数据6
6000 多款 App,看我如何搞定她们并将其洗白白
码以致用02-用Scrapy 爬虫抓取简单心理咨询师资料
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
爬虫框架Scrapy的第一个爬虫示例入门教程
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券